Выделение NER из Википедии

Добрый день.

Если я правильно понимаю, out-of-the-box модели NER обучены на Википедии. Если да, вопрос такой: каким образом осуществлялось разделение NE по тэгам при создании модели? Использовались таблицы БД MediaWiki или каким-то другим способом?

Стоит задача разделить названия статей русскоязычной Википедии на несколько групп. Например: продукты и организации. То есть что-то вроде справочника. Для этого есть БД, заполненная из дампа ruwiki с сайта wikimedia. Есть идея повторить опыт выделения NE в моделях, только «на лету».

Создавать свою модель для этого нельзя, т.к. предполагается интенсивная правка и создание новых статей, а, как я понимаю, обновление уже созданных моделей не предполагается.

Показателен пример с организацией «Пять глаз» (AUSCANNZUKUS) - неочевидное словосочетание как название организации, созданной для обмена разведданными. О ней есть статья в Википедии и она определяется в DeepPavlov, но не понятно, каким образом. Если она была в модели изначально, как она могла попасть туда? Вряд ли кто-то вручную размечал неочевидные сочетания слов.

Спасибо.

Модели обучены на размеченных новостях, классы предвательно определены по образу и подобию других датасетов, например, CoNLL-2003.

Значит в обучающей выборке встречались органиции с похожими названиями в похожих контекстах. Обучающая выборка доступна по ссылке.

1 Like