Возможности "TF-IDF ranker"

serbul · March 13, 2019, 3:19pm

Коллеги, добрый день! Я правильно понимаю, что TF-IDF ranker представляет из себя часть Document retriever из DrQA пока без возможности доставать факты из документа вместе с возвращаемым документом. Простыми словами, он повторяет возможности классической индексации текста (tf-idf) в обратный индекс (lucene, solr, sphinx), но через хэширование n-грам и их быструю выборку БЕЗ машинного обучения и без возможности добавлять документы в корпус на лету (без переучивания всех хэшей).

Пытаюсь понять бизнес-кейсы применения данной модели. Может она показывает лучшие recall/precision, чем классические ранжировщики систем с обратным индексом. Тогда можно добавить в нее редко меняющиеся документы (FAQ или ответы техподдержки) и вместо lucene/solr/sphinx отдавать документы на запросы со значительно улучшенным ранжированием?

my-master · March 14, 2019, 10:50am

Добрый день,

Всё верно, реализация в DeepPavlov сделана по статье про DrQA. Плюсы хэширования - меньше съедает оперативной памяти при подгрузке tf-idf матрицы, а также быстро ранжирует. На лету нет возможности добавлять документы в текущей реализации, так как делали скорее рисерч с возможностью комбинировать различные варианты ранжирования, чем продакшн-систему по типу Elastic.

Я сравнивала качество работы алгоритма в DeepPavlov и Elastic search в базовой конфигурации из коробки, и сравнение было в пользу DeepPavlov. В документации у нас приведены метрики качества только для английского, для русского они чуть повыше, так как дамп русскоязычной Википедии, на котором тестируется качество, меньше.

Но дело в том, что Elastic плох только в базовой конфигурации из коробки - если собрать ранжировщик не только из tfidf, но и из разнообразных плагинов lucene, то качество может стать приемлемым.

serbul · March 14, 2019, 10:53am

Спасибо большое за развернутый ответ!

Topic		Replies	Views
Need some advice regarding using own data Tutorials & Guidelines	17	1345	May 1, 2020
Trying to understand tfidf DeepPavlov Library	4	377	May 13, 2020
Метрики используемые в модели ранжирования Models	3	623	January 19, 2020
About the Documentation category Documentation	0	310	May 29, 2020
Выбор модели ODQA или KBQA Models	3	332	October 19, 2021

Возможности "TF-IDF ranker"

Related topics