Лемматизация терминов-словосочетаний

Используется модель ner_ontonotes_bert_mult для определения NER. Отправляем, например, предложение:
“Президент Российской Федерации встретился с президентом Соединенных Штатов Америки.”
Модель определяет термины «Российской Федерации» и «Соединенных Штатов Америки» как GPE. Все хорошо.
Вопрос: можно ли как-то получить через DeepPavlov нормальную форму терминов «Российской Федерации» и «Соединенных Штатов Америки»: «Российская Федерация» и «Соединенные Штаты Америки» соответственно?

Пробовал через pymorphy2.MorphAnalyzer и deeppavlov…PymorphyRussianLemmatizer, соответственно результаты:
российской федерация (5 раз)
соединенных штатов америк (2 раза)
[‘р’, ‘о’, ‘с’, ‘с’, ‘и’, ‘й’, ‘с’, ‘к’, ‘о’, ‘й’, ’ ', ‘ф’, ‘е’, ‘далее’, ‘е’, ‘р’, ‘а’, ‘ц’, ‘и’, ‘и’]
[‘с’, ‘о’, ‘е’, ‘далее’, ‘и’, ‘наш’, ‘е’, ‘наш’, ‘наш’, ‘ы’, ‘х’, ’ ', ‘ш’, ‘том’, ‘а’, ‘том’, ‘о’, ‘в’, ’ ', ‘а’, ‘метр’, ‘е’, ‘р’, ‘и’, ‘к’, ‘и’]

Спасибо.

PymorphyRussianLemmatizer принимает на вход батчи списков токенов, а вы, похоже, подали на вход просто список токенов, поэтому каждое слово было интерпретировано как список.
Можно его попробовать сразу встроить в пайплайн, но результат всё равно не очень согласованный получается.

1 Like

Нормализация выделенных сущностей - отдельная задача. Готового решения из коробки в библиотеке нет, к сожалению.

Возможно mystem вам поможет с нормализацией (он отдает гипотезы начальных форм).

1 Like

Ну это я по-разному уже мудрил. Перестарался. :smiley:
Будем пробовать mystem или еще как-то выкручиваться.