Токенизация в morpho и ner

mary-lev · October 25, 2019, 5:46pm

Правильно ли я понимаю, что токенизация в модели ner_rus_bert и модели morpho_ru_syntagrus_pymorphy_lemmatize делается по-разному? Хотелось вынимать сущности из ner и приводить их в нормальную форму с помощью morpho, но все индексы едут из-за слов с дефисами и еще кое-каких мелочей. Есть ли возможность привести их к общему знаменателю?

(ner_rus_bert потрясающе работает, спасибо!)

yoptar · October 26, 2019, 11:22am

Бертовая токенизация действительно отличается, судя по всему. Но обеим моделям можно подавать уже токенизированный текст. Можно взять токены с выхода нера и подать морфотеггеру или попробовать токенизировать самому заранее.

Topic		Replies	Views
Normalize NER Entities Models	2	478	August 12, 2021
Tokenizer used in model inference Models	1	40	July 30, 2024
Лемматизация терминов-словосочетаний DeepPavlov Library	4	654	November 14, 2019
NER модели работают по разному Models	1	543	October 22, 2021
NER позиция найденной сущности в тексте DeepPavlov Library	1	438	October 25, 2019

Токенизация в morpho и ner

Related topics