Метрики используемые в модели ранжирования

pituganov · January 12, 2020, 4:55pm

Пытаюсь разобраться в работе модели ranking_ubuntu_v2_bert_sep_inter.json.
Возникла пара вопросов относительно подсчета метрик.

В комментариях к компоненту bert_sep_ranker_predictor написано, что используется косинусная близость для нахождения ответа.
Те для подходящей пары (контекст, ответ) будет наибольшее значение от 0.0 до 1.0 (поправьте, если не прав).
Но в подсчете метрики r@k проверяется наличие значения 0.0.
Я думал, что нужно искать наличие значения равного 1.0 (те сколько документов с высоким значением близости удалось найти).
Почему идет сравнение с нулем?
Возможно, я не правильно понимаю, как в модели вычисляется близость между эмбеддингами.
Почему качество модели оценивается по значениям близости, а не по самим текстам?

puleon · January 15, 2020, 12:41pm

Здравствуйте!

Все верно, используется косинусная близость: смотрите метод call класса BertSepRankerModel. Метрика r@k получает на вход косинусные близости вопроса со всеми кандидатами на ответ для каждого вопроса, затем эти близости сортируются и проверяется попал ли правильный ответ, который имеет индекс 0, на первые k позиций. Вообще, конфигурационный файл ranking_ubuntu_v2_bert_sep_interact.json и класс BertSepRankerPredictor используются только в режиме interact и там метрики по факту не используются, а вычисляется косинусная близость по базе возможных ответов (см. функцию _retrieve_db_response). Обучение модели и вычисление метрик выполняется с помощью файла ranking_ubuntu_v2_bert_sep.json и класса BertSepRankerModel. Смотрите документацию.
Вопрос не понятен, уточните, что имеется в виду?

pituganov · January 17, 2020, 5:11am

Спасибо.

Просто для меня не очевидно, что у правильного ответа будет индекс 0.
Ответы берутся из response_base_loader. Откуда там будет правильный ответ?
Или для вычисления метрик правильный ответ подставляется перед кандидатами?

Из-за этого у меня и возник второй вопрос.
Я думал, что оценивать модель можно только по совпадению текста ответа с кандидатами на ответ (есть ли среди кандидатов правильный ответ). Не знал, что можно по близости считать.

pituganov · January 19, 2020, 3:02pm

Кажется понял.

В тестовых датасетах для ранжирования несколько кандидатов для ранжирования. Правильный ответ идет первым.

Далее, для каждого из кандидатов считается близость. И для правильного ответа близость должна быть наибольшей.

Topic		Replies	Views
Создание собственной базы ответов на русском языке	16	1378	November 11, 2020
Обнаружение исправлений Models	2	331	April 23, 2020
Russian (Big?) Text Embeddings DeepPavlov Library	2	275	April 18, 2021
Вопрос по CosineSimilarityClassifier DeepPavlov Library	0	285	May 22, 2019
Get top 3 answers and their respective confidence scores using squad_bert_infer_model DeepPavlov Library	1	943	November 19, 2019

Метрики используемые в модели ранжирования

Related topics