ODQA Обучение на своих данных

Nikolas_l · May 28, 2019, 11:15am

Добрый день
Посмотрел вводные статьи и примеры по обучению Open-domain question answering

В частности попытался выполнить этот пример
https://colab.research.google.com/github/deepmipt/dp_notebooks/blob/master/DP_ODQA.ipynb#scrollTo=Uy0JcFI2dKYs

С датасетом вики всё получилось.

Интересует процесс обучения модели на собственном датасете
В настоящее время подготовлены файлы с текстом не из википедии.

Каким образом можно обучить модель для ответов на вопросы по своему собственному набору данных? какие шаги потребуется выполнить?

my-master · May 28, 2019, 3:19pm

Здравствуйте, @Nikolas_l!

Обучить ODQA на своих данных очень просто. Для этого нужно взять конфиг нужного ранжировщика и указать ему свой путь до данных и тип данных.

К примеру, для обучения ODQA а русском языке необходимо выполнить следующий код:

from deeppavlov import configs
from deeppavlov.core.common.file import read_json
from deeppavlov import configs, train_model
model_config = read_json(configs.doc_retrieval.ru_ranker_tfidf_wiki)
model_config["dataset_reader"]["data_path"] = "<ПУТЬ/ДО_ПАПКИ_ИЛИ_ФАЙЛА_С_ВАШИМИ_ДАННЫМИ>"
model_config["dataset_reader"]["save_path"] = "ЖЕЛАЕМЫЙ_ПУТЬ_ДО_ФАЙЛА_БД (например, "data.db")"
model_config["dataset_reader"]["dataset_format"] = "txt"
model_config["dataset_iterator"]["load_path"] = "ЖЕЛАЕМЫЙ_ПУТЬ_ДО_ФАЙЛА_БД (например, "data.db")"
model_config["pipe"][0]["save_path"] = "ЖЕЛАЕМЫЙ_ПУТЬ_ДО_МАТРИЦЫ_РАНЖИРОВЩИКА (например, "data.npz")"
model_config["pipe"][0]["load_path"] = "ЖЕЛАЕМЫЙ_ПУТЬ_ДО_МАТРИЦЫ_РАНЖИРОВЩИКА (например, "data.npz")"

doc_retrieval = train_model(model_config)

Также можно редактировать JSON-конфиги напрямую, а не в коде.
В результате работы предыдущего кода по указанным вами желаемым путям появится 2 файла: data.db и data.npz. После этого можно будет взять конфиг ODQA и указать ему в config_path путь до конфига ранжировщика со всеми параметрами выше. Затем запустить ODQA на инференс.

Rook · January 28, 2020, 6:44am

Тут описано как обучить модели ODQA. А как поступить с моделями FQA? Там конфиг другой. Как его по редактировать и есть ли описание в доках?

Topic		Replies	Views
Обучение ODQA на собственных данных DeepPavlov Library	4	869	April 6, 2021
ODQA: отвечает неправильно и не так как DrQA? DeepPavlov Library	11	1194	December 28, 2020
Need some advice regarding using own data Tutorials & Guidelines	17	1364	May 1, 2020
How to custom train KBQA and ODQA model Models	4	649	October 5, 2021
How to use 2 types of ODQA models in same notebook? DeepPavlov Library	7	745	January 18, 2021

ODQA Обучение на своих данных

Related topics