Пытаюсь разобраться в работе модели ranking_ubuntu_v2_bert_sep_inter.json
.
Возникла пара вопросов относительно подсчета метрик.
-
В комментариях к компоненту
bert_sep_ranker_predictor
написано, что используется косинусная близость для нахождения ответа.
Те для подходящей пары (контекст, ответ) будет наибольшее значение от 0.0 до 1.0 (поправьте, если не прав).
Но в подсчете метрикиr@k
проверяется наличие значения 0.0.
Я думал, что нужно искать наличие значения равного 1.0 (те сколько документов с высоким значением близости удалось найти).
Почему идет сравнение с нулем?
Возможно, я не правильно понимаю, как в модели вычисляется близость между эмбеддингами. -
Почему качество модели оценивается по значениям близости, а не по самим текстам?