Здравствуйте, я хочу дообучить модель ner_rus_bert на своих данных, а не обучить с нуля. Для этого вызываю обучения без правок самой конфигурации ner_rus_bert.json. В ~/.deeppavlov/downloads/total_rus положил размеченные файлы train.txt, test.txt, valid.txt объемом в 147к, 19к и 20к строк соответственно. Предложения разделены пустой строкой, предложения длиннее 50 слов разделены на части пустыми строками, знаки препинания при разметке рассматривались как отдельные токены.
При вызове:
from deeppavlov import configs, train_model
ner_model = train_model(configs.ner.ner_rus_bert, download=False)
Получаю:
Runtime Error: input sequence after bert tokenization shouldn’t exceed 512 tokens.
Подскажите, пожалуйста, в чём может быть проблема? В размеченных данных длинных предложений нет.
явно разбивает неправильно. может попробовать одно предложение? 
а вообще выкладывай файлы, чтобы можно было поспроизвести
Похоже проблема была в большой разреженности данных. Между тэгированными сущностями были большие куски незначащего текста. Я переразметил данные для обучения и попробовал дообучить на небольшом куске в 8к слов. Отработало без ошибок. Привожу ниже ссылку на файлы с текущей разметкой на примере новостной страницы.
https://dropmefiles.com/kZHyp
Думаю, что не в разреженности, а в отсутствии где-то пустой строки.
У BERT максимальная длина 512. Видимо где-то захватывало больше.
У T5 по-моему побольше(?) 768?
Как я писал в самом начале, предложения длиннее 50 слов делились пустыми строками. То есть между пустыми строками в обучающей выборке всегда было не более 50 слов.
Токенайзер кстати делит незнакомые слова(если их нет в словаре) на куски. То есть если много незнакомых слов, то каждое может быть представлено как 3-5 токенов. Соответственно появляется какой-то множитель.
Это так, предположение.