Дообучение модели ner_rus_bert. Проблема с длиной входной последовательности в данных

AntipatternCorp · April 2, 2020, 7:20am

Здравствуйте, я хочу дообучить модель ner_rus_bert на своих данных, а не обучить с нуля. Для этого вызываю обучения без правок самой конфигурации ner_rus_bert.json. В ~/.deeppavlov/downloads/total_rus положил размеченные файлы train.txt, test.txt, valid.txt объемом в 147к, 19к и 20к строк соответственно. Предложения разделены пустой строкой, предложения длиннее 50 слов разделены на части пустыми строками, знаки препинания при разметке рассматривались как отдельные токены.
При вызове:
from deeppavlov import configs, train_model
ner_model = train_model(configs.ner.ner_rus_bert, download=False)

Получаю:

Runtime Error: input sequence after bert tokenization shouldn’t exceed 512 tokens.

Подскажите, пожалуйста, в чём может быть проблема? В размеченных данных длинных предложений нет.

IvanIvanov · April 5, 2020, 11:25am

явно разбивает неправильно. может попробовать одно предложение?
а вообще выкладывай файлы, чтобы можно было поспроизвести

AntipatternCorp · April 5, 2020, 1:09pm

Похоже проблема была в большой разреженности данных. Между тэгированными сущностями были большие куски незначащего текста. Я переразметил данные для обучения и попробовал дообучить на небольшом куске в 8к слов. Отработало без ошибок. Привожу ниже ссылку на файлы с текущей разметкой на примере новостной страницы.
https://dropmefiles.com/kZHyp

IvanIvanov · April 5, 2020, 1:34pm

Думаю, что не в разреженности, а в отсутствии где-то пустой строки.
У BERT максимальная длина 512. Видимо где-то захватывало больше.
У T5 по-моему побольше(?) 768?

AntipatternCorp · April 5, 2020, 4:20pm

Как я писал в самом начале, предложения длиннее 50 слов делились пустыми строками. То есть между пустыми строками в обучающей выборке всегда было не более 50 слов.

IvanIvanov · April 5, 2020, 8:51pm

Токенайзер кстати делит незнакомые слова(если их нет в словаре) на куски. То есть если много незнакомых слов, то каждое может быть представлено как 3-5 токенов. Соответственно появляется какой-то множитель.
Это так, предположение.

Topic		Replies	Views
Дообучение ner_ontonotes_bert_mult_torch на своих данных DeepPavlov Library	3	642	December 3, 2021
NER - "input sequence after bert tokenization shouldn't exceed 512 tokens" (ner_conll2003_bert) Models	5	165	April 24, 2024
Дообучение предобученной NER модели Welcome to the DeepPavlov Community Forum	3	479	May 14, 2024
Ошибка при обучении модели "a mismatch between the current graph and the graph" Documentation	7	1255	April 16, 2020
Проблемы с обучением на GPU модели ner_rus_bert Models	1	664	April 15, 2020

Дообучение модели ner_rus_bert. Проблема с длиной входной последовательности в данных

Related topics