Доступ к исходным датасетам обученных моделей NER

Добрый день! Я хочу переобучить модель NER для русского датасета, указанного в таблице сравнения для конфига “ner_rus”: “Collection3” (“Mozharova V., Loukachevitch N., Two-stage approach in Russian named entity recognition // International FRUCT Conference on Intelligence, Social Media and Web, ISMW FRUCT 2016. Saint-Petersburg; Russian Federation, DOI 10.1109/FRUCT.2016.7584769”), приведя текст к нижнему регистру. Насколько я понял, из датасета нужно создать 3 файла для обучения: train.txt, valid.txt, and test.txt и дальше, без программирования, внеся изменение в конфиг, переобучить нейросеть. Но не могу найти “dataset_reader”, который прочитает и разделит датасеты из исходного, “Collection3”, который я нашел тут. Предлагаемый в дефолтном конфиге и туториалах “dataset_reader” = “conll2003_reader” может считывать примеры только в узком формате и в моем случае, насколько я понял, не подойтет. Я поискал в API тут, но тоже не нашел.

Ниже по тексту описания компонента упоминаются характеристики нейросети, обученной на других русских датасетах, например на “Persons-1000”. Но как нем переобучить модель, не программируя кастомный “dataset_reader”, непонятно. Модель же уже обучалась на этом датасете, “dataset_reader” должен где-то быть готовый на гитхабе? Есть способ без программирования переобучить модель, изменив конфиг, на любом датасете, упомянутом в документации и таблицах сравнения - одной командой?

Спасибо!

В датасет ридере уже есть возможность подгрузить нужный датасет. Для этого нужно указать “dataset_name”: “collection_rus”. Можно скачать руками здесь.
В доке каждая модель - гиперлинка на конфиг, который подгружает датасет и тренит модель. Различия в датасет ридере только в “dataset_name”.
Дополним докстринги чтобы было понятнее.

1 Like

For this you need the knowledge of database management system and if you are a beginner then go to https://netgears.support/netgear-genie-support to learn more.