Используется модель ner_ontonotes_bert_mult для определения NER. Отправляем, например, предложение:
“Президент Российской Федерации встретился с президентом Соединенных Штатов Америки.”
Модель определяет термины «Российской Федерации» и «Соединенных Штатов Америки» как GPE. Все хорошо.
Вопрос: можно ли как-то получить через DeepPavlov нормальную форму терминов «Российской Федерации» и «Соединенных Штатов Америки»: «Российская Федерация» и «Соединенные Штаты Америки» соответственно?
Пробовал через pymorphy2.MorphAnalyzer и deeppavlov…PymorphyRussianLemmatizer, соответственно результаты:
российской федерация (5 раз)
соединенных штатов америк (2 раза)
[‘р’, ‘о’, ‘с’, ‘с’, ‘и’, ‘й’, ‘с’, ‘к’, ‘о’, ‘й’, ’ ', ‘ф’, ‘е’, ‘далее’, ‘е’, ‘р’, ‘а’, ‘ц’, ‘и’, ‘и’]
[‘с’, ‘о’, ‘е’, ‘далее’, ‘и’, ‘наш’, ‘е’, ‘наш’, ‘наш’, ‘ы’, ‘х’, ’ ', ‘ш’, ‘том’, ‘а’, ‘том’, ‘о’, ‘в’, ’ ', ‘а’, ‘метр’, ‘е’, ‘р’, ‘и’, ‘к’, ‘и’]
Спасибо.