NER модели работают по разному

Всем привет.
Задача: получить сущности DATE и ORG из русскоязычного текста. Причем даты указаны не только в стандартной цифровой форме, но и полностью или частично словами.
Пробую ner_ontonotes_bert_mult_torch - отлично находит все сущности дат в любых проявлениях, в том числе с опечатками и другими косяками в написании. НО не находит и половины указанных в тексте организаций.
Другие модели ner_rus_bert_torch, ner_collection3_m1 или ner_rus очень хорошо находят сущности организаций, но ни в какую не хотят находить даты отличные от стандартного формата (дд.мм.гггг или дд месяц гггг).
Вопрос - как такое может быть и как это исправить?
Тесты проходили на одном и том же тексте. В демо на сайте сущности находятся все хоршо, и даты и организации.

1 Like

Присоединюсь также с вопросом: На демо странице Demo of Open-Souce NLP Framework DeepPavlov.ai для русского языка указано “Здесь представлена модель, обученная на Collection 3 датасете для русского языка.” - какая именно это модель из списка моделей (какой конфиг) - этот ли ner_collection3_m1 ? Раньше SOTA моделью была ner_rus_bert, но сейчас в таблице моделей у ner_collection3_m1 указано 97.8 против 97.7 у ner_rus_bert_torch
какая модель на текущий момент лучшая для NER русского языка? Аналогично для английского - какая из представленных моделей на текущий момент лучшая для NER английского языка? Что означает m1 в ряде моделей?