Russian (Big?) Text Embeddings

dapodshivalov · April 11, 2021, 1:33pm

Hello! I have a lot of movie reviews(each one is ~500 Russian words). I want to make embeddings from them. Then i want to get k-nearest vectors to the user query. It will be a realisation of movie search.

Is it possible to use RuBert to make vectors from reviews?

Добрый день! Сейчас пишу диплом, суть которого сделать поиск фильмов по запросу, который обычно формулируют в гугле(например, “Фильм в котором головы марсиан взрываются от музыки” → “Марс атакует”). У меня есть некоторый датасет c рецензиями с Кинопоиска. Каждая рецензия примерно в промежутке от 100 до 1000 слов. Хотел бы как-то представить каждую рецензию в векторном виде.

Я почти 0 в Машинном обучении, поэтому хотел бы узнать насколько для моих целей подойдет RuBert? Или может какой-то другой алгоритм? Буду очень благодарен, если кто-нибудь ответит.

Кому интересно, сам алгоритм поиска планирую строить на основе структуры графа Мир тесен: Hierarchical Navigable Small World (HNSW).

Vasily · April 12, 2021, 7:17am

Приветствую @dapodshivalov ,

Для задачи Вы можете использовать класс TransformersBertEmbedder с примером использования BERT in DeepPavlov — DeepPavlov 0.14.1 documentation

dapodshivalov · April 18, 2021, 7:42pm

Спасибо!

Посмотрел пример, не очень понял в чем разница между sent_max_embs и sent_mean_embs.
И что такое bert_pooler_outputs?

Topic		Replies	Views
Использование векторизации RUBERT DeepPavlov Library	3	978	December 9, 2019
Rubert Embeddings Documentation	1	638	February 17, 2020
Дообучение ruBERT на специфическом корпусе для задачи классификации DeepPavlov Library	8	3647	June 30, 2022
Recommended preprocessing for ruBERT Models	1	365	September 24, 2020
Wordpiece tokenization russian DeepPavlov Library	2	701	June 1, 2020

Russian (Big?) Text Embeddings

Related topics