Добрый день! Я хочу переобучить модель NER для русского датасета, указанного в таблице сравнения для конфига “ner_rus”: “Collection3” (“Mozharova V., Loukachevitch N., Two-stage approach in Russian named entity recognition // International FRUCT Conference on Intelligence, Social Media and Web, ISMW FRUCT 2016. Saint-Petersburg; Russian Federation, DOI 10.1109/FRUCT.2016.7584769”), приведя текст к нижнему регистру. Насколько я понял, из датасета нужно создать 3 файла для обучения: train.txt, valid.txt, and test.txt и дальше, без программирования, внеся изменение в конфиг, переобучить нейросеть. Но не могу найти “dataset_reader”, который прочитает и разделит датасеты из исходного, “Collection3”, который я нашел тут. Предлагаемый в дефолтном конфиге и туториалах “dataset_reader” = “conll2003_reader” может считывать примеры только в узком формате и в моем случае, насколько я понял, не подойтет. Я поискал в API тут, но тоже не нашел.
Ниже по тексту описания компонента упоминаются характеристики нейросети, обученной на других русских датасетах, например на “Persons-1000”. Но как нем переобучить модель, не программируя кастомный “dataset_reader”, непонятно. Модель же уже обучалась на этом датасете, “dataset_reader” должен где-то быть готовый на гитхабе? Есть способ без программирования переобучить модель, изменив конфиг, на любом датасете, упомянутом в документации и таблицах сравнения - одной командой?
Спасибо!