Создание собственной базы ответов на русском языке

Здравствуйте! Сделал все как в документации “Building your own response base for bert ranking” удалил и поставил свои в .csv файл русские вопросы и ответы, но почему то показывается так:
x::Привет

[‘Привет’] [0.9185912609100342]
x::

видимо я должен установить русский разговорный bert или это проблема кодировки? Но я как то не смог найти в документации где и как это делается. Еще заметил на своих базах ответах на английском не правильно выбирается ответы, хотя в точь-точь создал вопрос, возможно это из-за ответах какие то знаки нужно ставить типа “eou ,” “) eou eot” не понятно что это

запускал по python -m deeppavlov interact ranking_ubuntu_v2_bert_sep_interact

А ваш csv файл в какой кодировке сохранен? (попробуйте сохранить в utf-8)

Да файл в utf-8 проверил.

Вообще rank_ubuntu_v2_bert_sep_interact можно создать базу ответов на русском языке? Или это только для английского языка?

Здравствуйте! В rank_ubuntu_v2_bert_sep_interact используется uncased_L-12_H-768_A-12 BERT (то есть модель только для английского языка).

а на какой модели можно так же создать базу ответов или нужно как то поменять модель bert?

Попробовал изменить в файле rank_ubuntu_v2_bert_sep_interact.json название uncased_L-12_H-768_A-12 BERT на ru_conversational_cased_L-12_H-768_A-12 и загрузил в папку рядом пишет ошибка(часть):
File “C:\Users\gtyri\PycharmProjects\rtyy\venv\lib\site-packages\deeppavlov\core\models\tf_model.py”, line 55, in load
saver.restore(self.sess, path)
File “C:\Users\gtyri\PycharmProjects\rtyy\venv\lib\site-packages\tensorflow_core\python\training\saver.py”, line 1326, in restore
err, “a mismatch between the current graph and the graph”)
tensorflow.python.framework.errors_impl.InvalidArgumentError: Restoring from checkpoint failed. This is most likely due to a mismatch between the current graph and the graph from the checkpoint. Please ensure that you have not altered
the graph expected based on the checkpoint. Original error:

Assign requires shapes of both tensors to match. lhs shape= [119547,768] rhs shape= [30522,768]
[[node save/Assign_4 (defined at \PycharmProjects\rtyy\venv\lib\site-packages\tensorflow_core\python\framework\ops.py:1748) ]]

Original stack trace for ‘save/Assign_4’:
File “\AppData\Local\Programs\Python\Python36\lib\runpy.py”, line 193, in _run_module_as_main
main”, mod_spec)
File “\AppData\Local\Programs\Python\Python36\lib\runpy.py”, line 85, in _run_code
exec(code, run_globals)

У вас вообще можно сделать на русском базу ответов?

Здравствуйте. Да, можно. Во-первых у вас действительно поблема с кодировкой в вашем файле. Если напишите почтовый адрес, то можем скинуть простой пример файла с русскими ответами. Во-вторых, если вы подставляете ru_conversational_cased_L-12_H-768_A-12, то нужно удалить файлы {MODEL_PATH}/model*, поскольку это модель, которая была обучена начиная с uncased_L-12_H-768_A-12 BERT и она несовместима с ru_conversational_cased_L-12_H-768_A-12. Тогда будет работать. Но нужно также понимать, что работать будет не очень хорошо, поскольку ru_conversational_cased_L-12_H-768_A-12 не обучалась для ранижирования. Готовых моделей для ранжирования на русском сейчас нет, вы можете самостоятельно взять ваши данные на русском и обучить модель с помощью конфига https://github.com/deepmipt/DeepPavlov/blob/master/deeppavlov/configs/ranking/ranking_default.json по инструкции http://docs.deeppavlov.ai/en/master/features/models/neural_ranking.html#training-and-inference-on-your-own-data.

Да пример было бы замечательно.
почта: bairto.c@gmail.com