Wordpiece tokenization russian

Здравствуйте Команда DeepPavlov,

Хочу использовать предтренированый RU BERT для классфикации текстов.
В используемых текстах могут встречаться слова, не встречающиеся в предтернированном словаре. Поэтому может иметь смысл дотренировать словарь для wordpiece tokenizer, тк это вероятно даст лучиший результат, чем токенизировать новые слова посимвольно с помощью существующего словаря.

Не могу найти инструмент в DeepPavlov для тренировки LM для wordpiece tokenizer.
Не могли бы вы поделиться информацией о том как вы тренируете словарь для wordpiece tokenizer по методу используемому в оригинальном BERT? Если вы использовали другой способ, буду признателен, если поделитесь своим опытом.

С уважением,
Алексей Б.

Добрый день!

Если вы хотите использовать BERT со своим словарем, то вам придется полностью заново предобучать BERT на своих данных.

Инструментов для предобучения BERT на своих данных в библиотеке DeepPavlov нет.
Для построения словаря можно воспользоваться YouTokenToMe и затем привести его к нужному формату.

Здравствуйте, Юрий!

Большое спасибо за ответ.
Скажите, существующий словарь тренировался с помощью https://github.com/VKCOM/YouTokenToMe ?

Спасибо!