Добрый вечер!
Рассмотрим простыми словами архитектуру, описанную тут и уже обученную на модифицированном датасете DSTC2 (~1.5 тысячи размеченных диалогов, насколько я понял тут, что не так много и можно для русского такой сделать, например из наших данных).
Предобучаем intent-модель. Предобучаем эмбеддинги. Предобучаем NER-разметчик: для ресторана одни сущности (типы кухни), для гостиниц другие (типы номеров). Затем обучаем с этими фичами и плюс эмбеддинги текстов уже самих диалогов (последовательные слова диалогов или нграммы) - рекуррентную сеть, которая выбирает по сути действие “action” (sofmax), которое в свою очередь использует вычлененные еще до входа в рекуррентную сеть значения NER-сущностей. На вопрос “создай задачу для петрова с названием А” должно выбраться действие: “пользователь = петров, название задачи: А” и дальше понятно.
Архитектура интересная и выглядит полезной, т.к. нужно всего ~1.5к диалогов. Но возник вопрос - на странице документации указана “turn accuracy = 56.1%”. Я правильно понимаю, что это означает, что примерно в половине случаев модель выберет неправильное действие в диалоге? Или я неправильно понял семантику метрики? Может данных нужно больше просто для обучения рекуррентной сети чтобы поднять accuracy до 80% хотя-бы? Спасибо!