Доступ к исходным датасетам обученных моделей NER

serbul · March 15, 2019, 1:46pm

Добрый день! Я хочу переобучить модель NER для русского датасета, указанного в таблице сравнения для конфига “ner_rus”: “Collection3” (“Mozharova V., Loukachevitch N., Two-stage approach in Russian named entity recognition // International FRUCT Conference on Intelligence, Social Media and Web, ISMW FRUCT 2016. Saint-Petersburg; Russian Federation, DOI 10.1109/FRUCT.2016.7584769”), приведя текст к нижнему регистру. Насколько я понял, из датасета нужно создать 3 файла для обучения: train.txt, valid.txt, and test.txt и дальше, без программирования, внеся изменение в конфиг, переобучить нейросеть. Но не могу найти “dataset_reader”, который прочитает и разделит датасеты из исходного, “Collection3”, который я нашел тут. Предлагаемый в дефолтном конфиге и туториалах “dataset_reader” = “conll2003_reader” может считывать примеры только в узком формате и в моем случае, насколько я понял, не подойтет. Я поискал в API тут, но тоже не нашел.

Ниже по тексту описания компонента упоминаются характеристики нейросети, обученной на других русских датасетах, например на “Persons-1000”. Но как нем переобучить модель, не программируя кастомный “dataset_reader”, непонятно. Модель же уже обучалась на этом датасете, “dataset_reader” должен где-то быть готовый на гитхабе? Есть способ без программирования переобучить модель, изменив конфиг, на любом датасете, упомянутом в документации и таблицах сравнения - одной командой?

Спасибо!

mu-arkhipov · March 18, 2019, 8:29am

В датасет ридере уже есть возможность подгрузить нужный датасет. Для этого нужно указать “dataset_name”: “collection_rus”. Можно скачать руками здесь.
В доке каждая модель - гиперлинка на конфиг, который подгружает датасет и тренит модель. Различия в датасет ридере только в “dataset_name”.
Дополним докстринги чтобы было понятнее.

nikkij · March 20, 2019, 10:46am

For this you need the knowledge of database management system and if you are a beginner then go to https://netgears.support/netgear-genie-support to learn more.

Topic		Replies	Views
Обучение NER на своих данных DeepPavlov Library	2	884	July 18, 2019
NER training using own data DeepPavlov Library	1	339	October 1, 2020
Возможности обученных NER-моделей DeepPavlov Library	2	1114	March 1, 2019
Finetune / Тренировка bert_rus_ner для извлечения именованных сущностей DeepPavlov Library	8	1271	July 9, 2021
Ner_few_shot_ru Models	7	693	July 22, 2022

Доступ к исходным датасетам обученных моделей NER

Related topics