Выделение NER из Википедии

AlexeySlvv · March 18, 2020, 8:04am

Добрый день.

Если я правильно понимаю, out-of-the-box модели NER обучены на Википедии. Если да, вопрос такой: каким образом осуществлялось разделение NE по тэгам при создании модели? Использовались таблицы БД MediaWiki или каким-то другим способом?

Стоит задача разделить названия статей русскоязычной Википедии на несколько групп. Например: продукты и организации. То есть что-то вроде справочника. Для этого есть БД, заполненная из дампа ruwiki с сайта wikimedia. Есть идея повторить опыт выделения NE в моделях, только «на лету».

Создавать свою модель для этого нельзя, т.к. предполагается интенсивная правка и создание новых статей, а, как я понимаю, обновление уже созданных моделей не предполагается.

Показателен пример с организацией «Пять глаз» (AUSCANNZUKUS) - неочевидное словосочетание как название организации, созданной для обмена разведданными. О ней есть статья в Википедии и она определяется в DeepPavlov, но не понятно, каким образом. Если она была в модели изначально, как она могла попасть туда? Вряд ли кто-то вручную размечал неочевидные сочетания слов.

Спасибо.

mu-arkhipov · March 18, 2020, 8:19am

Модели обучены на размеченных новостях, классы предвательно определены по образу и подобию других датасетов, например, CoNLL-2003.

Значит в обучающей выборке встречались органиции с похожими названиями в похожих контекстах. Обучающая выборка доступна по ссылке.

Topic		Replies	Views
NER модели работают по разному Models	1	543	October 22, 2021
Возможности обученных NER-моделей DeepPavlov Library	2	1115	March 1, 2019
Как правильно подготовить данные для модели NER DeepPavlov Library	1	460	April 17, 2019
Обучение NER на своих данных DeepPavlov Library	2	885	July 18, 2019
Finetune / Тренировка bert_rus_ner для извлечения именованных сущностей DeepPavlov Library	8	1277	July 9, 2021

Выделение NER из Википедии

Related topics