Russian (Big?) Text Embeddings

Hello! I have a lot of movie reviews(each one is ~500 Russian words). I want to make embeddings from them. Then i want to get k-nearest vectors to the user query. It will be a realisation of movie search.

Is it possible to use RuBert to make vectors from reviews?

Добрый день! Сейчас пишу диплом, суть которого сделать поиск фильмов по запросу, который обычно формулируют в гугле(например, “Фильм в котором головы марсиан взрываются от музыки” → “Марс атакует”). У меня есть некоторый датасет c рецензиями с Кинопоиска. Каждая рецензия примерно в промежутке от 100 до 1000 слов. Хотел бы как-то представить каждую рецензию в векторном виде.

Я почти 0 в Машинном обучении, поэтому хотел бы узнать насколько для моих целей подойдет RuBert? Или может какой-то другой алгоритм? Буду очень благодарен, если кто-нибудь ответит.

Кому интересно, сам алгоритм поиска планирую строить на основе структуры графа Мир тесен: Hierarchical Navigable Small World (HNSW).

Приветствую @dapodshivalov ,

Для задачи Вы можете использовать класс TransformersBertEmbedder с примером использования BERT in DeepPavlov — DeepPavlov 0.14.1 documentation

1 Like

Спасибо!

Посмотрел пример, не очень понял в чем разница между sent_max_embs и sent_mean_embs.
И что такое bert_pooler_outputs?