Дообучить TransformersBertEmbedder

alafitsky · November 2, 2021, 1:59pm

Приветствую.
Пытаюсь дообучить TransformersBertEmbedder на своих данных.
Дообученную модель хочу использовать для кластеризации текста.
Похожего примера не смог найти.
Что успел сделать:

создал файл конфигурации на основе embedder/tfidf_vectorizer:

{
“dataset_reader”: {
“class_name”: “line_reader”,
“data_path”: “{GK_PATH}/repr.tsv”
},
“dataset_iterator”: {
“class_name”: “data_learning_iterator”,
“seed”: 1
},
“chainer”: {
“in”: [“texts”],
“in_y”: ,
“pipe”: [
{
“class_name”: “transformers_bert_preprocessor”,
“vocab_file”: “{BERT_PATH}/vocab.txt”,
“do_lower_case”: false,
“max_seq_length”: 64,
“in”: [“texts”],
“out”: [“tokens”, “subword_tokens”, “subword_tok_ids”, “startofword_markers”, “attention_mask”]
},
{
“class_name”: “transformers_bert_embedder”,
“bert_config_path”: “{BERT_PATH}/bert_config.json”,
“load_path”: “{BERT_PATH}”,
“truncate”: false,
“in”: [“subword_tok_ids”, “startofword_markers”, “attention_mask”],
“in_y”: ,
“out”: [“word_emb”, “subword_emb”, “max_emb”, “mean_emb”, “pooler_output”]
}
],
“out”: [“max_emb”, “mean_emb”, “pooler_output”]
},
“train”: {
“epochs”: 40,
“batch_size”: 50,
“metrics”: [“accuracy”],
“validation_patience”: 10,
“val_every_n_epochs”: 1,
“log_every_n_epochs”: 1,
“tensorboard_log_dir”: “{GK_PATH}/logs”,
“class_name”: “nn_trainer”
},
“metadata”: {
“variables”: {
“ROOT_PATH”: “~/.deeppavlov”,
“DOWNLOADS_PATH”: “{ROOT_PATH}/downloads”,
“BERT_PATH”: “{DOWNLOADS_PATH}/bert_models/sentence_multi_cased_L-12_H-768_A-12_pt”,
“GK_PATH”: “{DOWNLOADS_PATH}/gk”
},
“labels”: {},
“download”: [
{
“url”: “http://files.deeppavlov.ai/deeppavlov_data/bert/sentence_multi_cased_L-12_H-768_A-12_pt.tar.gz”,
“subdir”: “{DOWNLOADS_PATH}/bert_models”
}
]
}

Основная трудность в том что для обучения не используются размеченные данные.
Также непонятно как в данном случае использовать процесс валидации и оценки результата.

спасибо.

yurakuratov · November 2, 2021, 4:08pm

В библиотеке DeepPavlov нет функционала для дообучения модели TransformersBertEmbedder. TransformersBertEmbedder предназначен только для того, чтобы получить вектора из готовых моделей.

Topic		Replies	Views
Дообучение ruBERT на специфическом корпусе для задачи классификации DeepPavlov Library	8	3458	June 30, 2022
Решение задачи MaskedLM с помощью библотеки DeepPavlov Library	1	447	July 27, 2020
Дообучение модели NER, обученной на своих тегах	1	27	March 12, 2025
Дообучение модели ner_rus_bert. Проблема с длиной входной последовательности в данных Models	5	1699	April 5, 2020
Использование векторизации RUBERT DeepPavlov Library	3	975	December 9, 2019

Дообучить TransformersBertEmbedder

Related topics