Лемматизация терминов-словосочетаний

AlexeySlvv · November 14, 2019, 7:22am

Используется модель ner_ontonotes_bert_mult для определения NER. Отправляем, например, предложение:
“Президент Российской Федерации встретился с президентом Соединенных Штатов Америки.”
Модель определяет термины «Российской Федерации» и «Соединенных Штатов Америки» как GPE. Все хорошо.
Вопрос: можно ли как-то получить через DeepPavlov нормальную форму терминов «Российской Федерации» и «Соединенных Штатов Америки»: «Российская Федерация» и «Соединенные Штаты Америки» соответственно?

Пробовал через pymorphy2.MorphAnalyzer и deeppavlov…PymorphyRussianLemmatizer, соответственно результаты:
российской федерация (5 раз)
соединенных штатов америк (2 раза)
[‘р’, ‘о’, ‘с’, ‘с’, ‘и’, ‘й’, ‘с’, ‘к’, ‘о’, ‘й’, ’ ', ‘ф’, ‘е’, ‘далее’, ‘е’, ‘р’, ‘а’, ‘ц’, ‘и’, ‘и’]
[‘с’, ‘о’, ‘е’, ‘далее’, ‘и’, ‘наш’, ‘е’, ‘наш’, ‘наш’, ‘ы’, ‘х’, ’ ', ‘ш’, ‘том’, ‘а’, ‘том’, ‘о’, ‘в’, ’ ', ‘а’, ‘метр’, ‘е’, ‘р’, ‘и’, ‘к’, ‘и’]

Спасибо.

yoptar · November 14, 2019, 9:02am

PymorphyRussianLemmatizer принимает на вход батчи списков токенов, а вы, похоже, подали на вход просто список токенов, поэтому каждое слово было интерпретировано как список.
Можно его попробовать сразу встроить в пайплайн, но результат всё равно не очень согласованный получается.

acriptis · November 14, 2019, 9:29am

Нормализация выделенных сущностей - отдельная задача. Готового решения из коробки в библиотеке нет, к сожалению.

acriptis · November 14, 2019, 9:36am

Возможно mystem вам поможет с нормализацией (он отдает гипотезы начальных форм).

AlexeySlvv · November 14, 2019, 10:08am

Ну это я по-разному уже мудрил. Перестарался.
Будем пробовать mystem или еще как-то выкручиваться.

Topic		Replies	Views
Associate NER with lemma Models	1	292	February 26, 2021
Lemmatization using DeepPavlov pre-trained models Models	3	619	February 16, 2021
Токенизация в morpho и ner DeepPavlov Library	1	335	October 26, 2019
Возможности обученных NER-моделей DeepPavlov Library	2	1113	March 1, 2019
NER модели работают по разному Models	1	543	October 22, 2021

Лемматизация терминов-словосочетаний

Related topics