Multi label russian texts classification

alex-and-r · April 28, 2020, 2:23pm

Can anyone point me to tutorials or notebooks or colabs or medium articles that show how to approach multi label classification of russian texts using DeepPavlov? I saw relevant tutorials here and here, but as far as I understood they cover only one lable per text classification. Only last one briefly touches the topic in last para, but only briefly…

dilyararimovna · April 29, 2020, 12:19pm

Hello!

The reason it touches multi-label classification briefly is that the difference only in one parameter.
If you use BERT-based classifiers, add parameter "multi_label": true to config file in dictionary with bert_classifier.
If you use Keras classifier, add parameter "last_layer_activation": "sigmoid" to config file in dictionary with keras_classification_model.

alex-and-r · May 1, 2020, 7:45pm

@dilyararimovna , спасибо!

(Просто, чтобы сохранить тут, в этой теме.) Насколько понимаю, вот похожий вопрос был: https://github.com/deepmipt/DeepPavlov/issues/890

AndrewM · May 22, 2020, 9:42pm

Здравствуйте, подскажите пожалуйста как при текстовой multi-label классификации правильно обучать классам вне обучающей выборки (ненужным классам) - т.е. обучаем классификатор определять, например, новости про кино/музыка/эстрада/знаменитости и получаем macro f1 в районе 95%, а на реальных RSS новости про футбол/экономику массово размечаются как эстрада/кино вместо пустого класса [0 0 0 …], что явно не соответствует f1 в 95%. Причем таких неинтересных классов может же быть сколько угодно (невозможно составить полную обучающую выборку того, что не нужно) да еще и желательно чтобы они учитывались при оценке качества метрикой f1? Есть ли особенность обучения multi-label классификатора c большим количеством классов или ограничения на количество multi-label классов (где-то после добавления 60 классов bert начинает медленно снижать loss и потом застывает не показывая желаемого качества, причем уменьшение learning_rate и(или) batch_size, как и добавление эпох или даже Dense перед последним(классифицирующим) слоем не помогают, причем на меньшем количестве классов все работает, но если делать три классификатора по 20 классов, то из-за описанной вначале проблемы “неизвестных/ненужных” получается много false-positive в классификаторах которые должны были бы выдавать пустой класс [])?

Topic		Replies	Views
Архитектура мельтилейбл модификации BertClassifierModel DeepPavlov Library	4	386	January 27, 2021
Multi class emotion classification for text in russian	2	530	April 15, 2021
Which config file is suitable for my task?	0	261	April 25, 2021
Finetune / Тренировка bert_rus_ner для извлечения именованных сущностей DeepPavlov Library	8	1256	July 9, 2021
BERT for classification error DeepPavlov Library	1	834	September 5, 2019

Multi label russian texts classification

Related topics