Добрый день.
Если я правильно понимаю, out-of-the-box модели NER обучены на Википедии. Если да, вопрос такой: каким образом осуществлялось разделение NE по тэгам при создании модели? Использовались таблицы БД MediaWiki или каким-то другим способом?
Стоит задача разделить названия статей русскоязычной Википедии на несколько групп. Например: продукты и организации. То есть что-то вроде справочника. Для этого есть БД, заполненная из дампа ruwiki с сайта wikimedia. Есть идея повторить опыт выделения NE в моделях, только «на лету».
Создавать свою модель для этого нельзя, т.к. предполагается интенсивная правка и создание новых статей, а, как я понимаю, обновление уже созданных моделей не предполагается.
Показателен пример с организацией «Пять глаз» (AUSCANNZUKUS) - неочевидное словосочетание как название организации, созданной для обмена разведданными. О ней есть статья в Википедии и она определяется в DeepPavlov, но не понятно, каким образом. Если она была в модели изначально, как она могла попасть туда? Вряд ли кто-то вручную размечал неочевидные сочетания слов.
Спасибо.