NER модели работают по разному

Andrey · October 13, 2021, 3:17pm

Всем привет.
Задача: получить сущности DATE и ORG из русскоязычного текста. Причем даты указаны не только в стандартной цифровой форме, но и полностью или частично словами.
Пробую ner_ontonotes_bert_mult_torch - отлично находит все сущности дат в любых проявлениях, в том числе с опечатками и другими косяками в написании. НО не находит и половины указанных в тексте организаций.
Другие модели ner_rus_bert_torch, ner_collection3_m1 или ner_rus очень хорошо находят сущности организаций, но ни в какую не хотят находить даты отличные от стандартного формата (дд.мм.гггг или дд месяц гггг).
Вопрос - как такое может быть и как это исправить?
Тесты проходили на одном и том же тексте. В демо на сайте сущности находятся все хоршо, и даты и организации.

AndrewM · October 22, 2021, 11:07am

Присоединюсь также с вопросом: На демо странице Demo of Open-Souce NLP Framework DeepPavlov.ai для русского языка указано “Здесь представлена модель, обученная на Collection 3 датасете для русского языка.” - какая именно это модель из списка моделей (какой конфиг) - этот ли ner_collection3_m1 ? Раньше SOTA моделью была ner_rus_bert, но сейчас в таблице моделей у ner_collection3_m1 указано 97.8 против 97.7 у ner_rus_bert_torch
какая модель на текущий момент лучшая для NER русского языка? Аналогично для английского - какая из представленных моделей на текущий момент лучшая для NER английского языка? Что означает m1 в ряде моделей?

Topic		Replies	Views
Возможности обученных NER-моделей DeepPavlov Library	2	1101	March 1, 2019
Обучение NER на своих данных DeepPavlov Library	2	867	July 18, 2019
Выделение NER из Википедии Models	1	410	March 18, 2020
Finetune / Тренировка bert_rus_ner для извлечения именованных сущностей DeepPavlov Library	8	1221	July 9, 2021
Ner_few_shot_ru Models	7	685	July 22, 2022

NER модели работают по разному

Related topics