Здравствуйте Команда DeepPavlov,
Хочу использовать предтренированый RU BERT для классфикации текстов.
В используемых текстах могут встречаться слова, не встречающиеся в предтернированном словаре. Поэтому может иметь смысл дотренировать словарь для wordpiece tokenizer, тк это вероятно даст лучиший результат, чем токенизировать новые слова посимвольно с помощью существующего словаря.
Не могу найти инструмент в DeepPavlov для тренировки LM для wordpiece tokenizer.
Не могли бы вы поделиться информацией о том как вы тренируете словарь для wordpiece tokenizer по методу используемому в оригинальном BERT? Если вы использовали другой способ, буду признателен, если поделитесь своим опытом.
С уважением,
Алексей Б.