Paraphrase detection model

AndrewM · May 25, 2020, 9:43am

Добрый день! Можно ли задачу paraphraser_rubert реализовать в векторном (embeddings) виде? Имеется ввиду получение из одной части модели некоторых выходов для набора, например, из 10 000 предложений, которые потом можно было бы попарно подать на вход другой части модели, которая работает значительно быстрее чем часть получающая вектора предложений (может быть слой, определяющий перефразирование обучить как отдельную модель?). Насколько я понимаю, просто использование RuBert векторов Использование векторизации RUBERT + расстояния между ними (косинуса, например, как меры близости) для определения перефразирования не даст такого же качества как paraphraser_rubert, так как обычные модели не дообучены (fine tuned) конкретно на эту задачу, но как использовать paraphraser_rubert для кластеризации или даже простого попарного сравнения 10 000 предложений за “разумное” время непонятно (10 000x10 0000 вызовов paraphraser_rubert)?

Topic		Replies	Views
Задача предсказания следующего предложения для RuBERT Models	2	1269	January 24, 2020
Использование векторизации RUBERT DeepPavlov Library	3	978	December 9, 2019
Russian (Big?) Text Embeddings DeepPavlov Library	2	272	April 18, 2021
Дообучение ruBERT на специфическом корпусе для задачи классификации DeepPavlov Library	8	3651	June 30, 2022
Обнаружение исправлений Models	2	325	April 23, 2020

Paraphrase detection model

Related topics