Здравствуйте! Хочу обучить NER-модель на своих данных, это BIO-разметка:
зятя O
генерал-майора B-POST
Брыкина O
) O
. O
То есть, хотелось бы, чтобы модель выделяла должности, т.е. размечала нужные сущности тегами B-POST и I-POST. В датасете около 116 тыс. предложений. В документации, вроде бы, описано то, как быстро обучить на небольшом объеме данных (конфиг ner_few_shot_ru.json), но хотелось бы на большом. Подскажите, пожалуйста, какой конфиг можно использовать, если можно выбрать из имеющихся, и как его адаптировать? Или как собрать собственный? Заранее спасибо.
Привет!
Вот так можно на своих данных:
from deeppavlov import configs, train_model
from deeppavlov.core.commands.utils import parse_config
config_dict = parse_config(configs.ner.ner_ontonotes_bert)
config_dict['dataset_reader']['data_path'] = 'path/to/your/data'
ner_model = train_model(config_dict)
оно упомянуто в доке
Большое спасибо! А именно этот конфиг лучше использовать, или ner_rus_bert тоже можно?