Приветствую.
Пытаюсь дообучить TransformersBertEmbedder на своих данных.
Дообученную модель хочу использовать для кластеризации текста.
Похожего примера не смог найти.
Что успел сделать:
- создал файл конфигурации на основе embedder/tfidf_vectorizer:
{
“dataset_reader”: {
“class_name”: “line_reader”,
“data_path”: “{GK_PATH}/repr.tsv”
},
“dataset_iterator”: {
“class_name”: “data_learning_iterator”,
“seed”: 1
},
“chainer”: {
“in”: [“texts”],
“in_y”: ,
“pipe”: [
{
“class_name”: “transformers_bert_preprocessor”,
“vocab_file”: “{BERT_PATH}/vocab.txt”,
“do_lower_case”: false,
“max_seq_length”: 64,
“in”: [“texts”],
“out”: [“tokens”, “subword_tokens”, “subword_tok_ids”, “startofword_markers”, “attention_mask”]
},
{
“class_name”: “transformers_bert_embedder”,
“bert_config_path”: “{BERT_PATH}/bert_config.json”,
“load_path”: “{BERT_PATH}”,
“truncate”: false,
“in”: [“subword_tok_ids”, “startofword_markers”, “attention_mask”],
“in_y”: ,
“out”: [“word_emb”, “subword_emb”, “max_emb”, “mean_emb”, “pooler_output”]
}
],
“out”: [“max_emb”, “mean_emb”, “pooler_output”]
},
“train”: {
“epochs”: 40,
“batch_size”: 50,
“metrics”: [“accuracy”],
“validation_patience”: 10,
“val_every_n_epochs”: 1,
“log_every_n_epochs”: 1,
“tensorboard_log_dir”: “{GK_PATH}/logs”,
“class_name”: “nn_trainer”
},
“metadata”: {
“variables”: {
“ROOT_PATH”: “~/.deeppavlov”,
“DOWNLOADS_PATH”: “{ROOT_PATH}/downloads”,
“BERT_PATH”: “{DOWNLOADS_PATH}/bert_models/sentence_multi_cased_L-12_H-768_A-12_pt”,
“GK_PATH”: “{DOWNLOADS_PATH}/gk”
},
“labels”: {},
“download”: [
{
“url”: “http://files.deeppavlov.ai/deeppavlov_data/bert/sentence_multi_cased_L-12_H-768_A-12_pt.tar.gz”,
“subdir”: “{DOWNLOADS_PATH}/bert_models”
}
]
}
Основная трудность в том что для обучения не используются размеченные данные.
Также непонятно как в данном случае использовать процесс валидации и оценки результата.
спасибо.