Дообучение модели ner_rus_bert. Проблема с длиной входной последовательности в данных

Здравствуйте, я хочу дообучить модель ner_rus_bert на своих данных, а не обучить с нуля. Для этого вызываю обучения без правок самой конфигурации ner_rus_bert.json. В ~/.deeppavlov/downloads/total_rus положил размеченные файлы train.txt, test.txt, valid.txt объемом в 147к, 19к и 20к строк соответственно. Предложения разделены пустой строкой, предложения длиннее 50 слов разделены на части пустыми строками, знаки препинания при разметке рассматривались как отдельные токены.
При вызове:
from deeppavlov import configs, train_model
ner_model = train_model(configs.ner.ner_rus_bert, download=False)

Получаю:

Runtime Error: input sequence after bert tokenization shouldn’t exceed 512 tokens.

Подскажите, пожалуйста, в чём может быть проблема? В размеченных данных длинных предложений нет.

явно разбивает неправильно. может попробовать одно предложение? :slight_smile:
а вообще выкладывай файлы, чтобы можно было поспроизвести

Похоже проблема была в большой разреженности данных. Между тэгированными сущностями были большие куски незначащего текста. Я переразметил данные для обучения и попробовал дообучить на небольшом куске в 8к слов. Отработало без ошибок. Привожу ниже ссылку на файлы с текущей разметкой на примере новостной страницы.
https://dropmefiles.com/kZHyp

Думаю, что не в разреженности, а в отсутствии где-то пустой строки.
У BERT максимальная длина 512. Видимо где-то захватывало больше.
У T5 по-моему побольше(?) 768?

Как я писал в самом начале, предложения длиннее 50 слов делились пустыми строками. То есть между пустыми строками в обучающей выборке всегда было не более 50 слов.

Токенайзер кстати делит незнакомые слова(если их нет в словаре) на куски. То есть если много незнакомых слов, то каждое может быть представлено как 3-5 токенов. Соответственно появляется какой-то множитель.
Это так, предположение.