NER конфигурация для русского - есть вопросы

Melmarn · May 6, 2019, 3:41pm

Добрый день, хочу натренировать модель на своих данных, иду по документации. В файлах configs/ner/ner_conll2003.json, configs/ner/ner_rus.json и других используется “class_name”: “str_lower” в “chainer”. В то же время, в ответе на вопрос 2 тут Возможности обученных NER-моделей вы указали, что “Большие буквы - очень сильная фича, без неё качество падает на пару пунктов”.
Мои вопросы следующие:

Оставлять ли большие буквы в моем специально подготовленном корпусе для fastText embeddings?
Поскольку описание различных файлов конфигурации версии 0.3.0 исчезло, не могу понять, какая из конфигураций наиболее подходит для тренировки. Будет ли в ближайшее время добавлено описание?

mu-arkhipov · May 6, 2019, 3:58pm

Привет!

FastText учится в подавляющем большинстве случаев на lower case. Поэтому модель обуславливается кейсом через отдельный признак который делает capitalization_featurizer. Там такие категориальные признаки: нет больших букв, одна первая большая буква и одна буква в слове (для сокращений имён, например), одна большая буква и несколько букв в слове, все большие буквы. One-hot вектор с этими фичами подаётся на вход сетке. Таким образом, за сами слова отвечает FastText, за большие буквы capitalization_featurizer. Решение по части 1: всё lower case. По части 2: попрбуйте наш новый мжвячный BERT. Его рекомендую использовать по умолчанию.

Melmarn · May 10, 2019, 9:01am

Добрый день! Спасибо за подробный ответ.
Попробовала BERT (ner_ontonotes_bert_mult). Тестовый пример прошел, а вот train_model на моих данных падает с ошибкой

Assign requires shapes of both tensors to match. lhs shape= [768,3] rhs shape= [768,37]

Мои данные размечены только одним тагом LAW.
Буду благодарна за совет.

Bogdan · May 11, 2019, 10:21am

Та же проблема, только
Assign requires shapes of both tensors to match. lhs shape= [3] rhs shape= [37]

Topic		Replies	Views
Доступ к исходным датасетам обученных моделей NER DeepPavlov Library	2	1009	March 20, 2019
Обучение NER на своих данных DeepPavlov Library	2	867	July 18, 2019
Дообучение предобученной NER модели Welcome to the DeepPavlov Community Forum	3	469	May 14, 2024
Дообучение ner_ontonotes_bert_mult_torch на своих данных DeepPavlov Library	3	641	December 3, 2021
Как подавать данные батчами Models	1	305	October 4, 2022

NER конфигурация для русского - есть вопросы

Related topics