Wordpiece tokenization russian

boggis30 · May 29, 2020, 10:47am

Здравствуйте Команда DeepPavlov,

Хочу использовать предтренированый RU BERT для классфикации текстов.
В используемых текстах могут встречаться слова, не встречающиеся в предтернированном словаре. Поэтому может иметь смысл дотренировать словарь для wordpiece tokenizer, тк это вероятно даст лучиший результат, чем токенизировать новые слова посимвольно с помощью существующего словаря.

Не могу найти инструмент в DeepPavlov для тренировки LM для wordpiece tokenizer.
Не могли бы вы поделиться информацией о том как вы тренируете словарь для wordpiece tokenizer по методу используемому в оригинальном BERT? Если вы использовали другой способ, буду признателен, если поделитесь своим опытом.

С уважением,
Алексей Б.

yurakuratov · June 1, 2020, 8:55am

Добрый день!

Если вы хотите использовать BERT со своим словарем, то вам придется полностью заново предобучать BERT на своих данных.

Инструментов для предобучения BERT на своих данных в библиотеке DeepPavlov нет.
Для построения словаря можно воспользоваться YouTokenToMe и затем привести его к нужному формату.

boggis30 · June 1, 2020, 9:13am

Здравствуйте, Юрий!

Большое спасибо за ответ.
Скажите, существующий словарь тренировался с помощью https://github.com/VKCOM/YouTokenToMe ?

Спасибо!

Topic		Replies	Views
Finetune / Тренировка bert_rus_ner для извлечения именованных сущностей DeepPavlov Library	8	1256	July 9, 2021
Использование векторизации RUBERT DeepPavlov Library	3	991	December 9, 2019
Russian (Big?) Text Embeddings DeepPavlov Library	2	273	April 18, 2021
Тренировка готовой модели ELMo DeepPavlov Library	1	645	June 26, 2019
Дообучение ruBERT на специфическом корпусе для задачи классификации DeepPavlov Library	8	3846	June 30, 2022

Wordpiece tokenization russian

Related topics