Привет, я делаю на работе так называемый speech diarization - это когда надо записанный аудиофайл разговора разметить по времени кто где говорил.
то есть “WHO SPOKE WHEN”
Примерно так:
speaker1 - 0.01 - 0.10 (говорил с 1 по 10 секунды)
speaker2 - 0.11 - 0.20 (2 человек говорил с 11 по 20 секунды)
speaker1 - 0.22 - 0.24
speaker3 - 0.25 - 0.30
…
То есть “who speak what” - сами слова узнавать не надо.
В разговоре у нас будет скорее 2 человека(клиент компании и работник компании - тех поддержка)
Я уже гуглил и не нашел русский датасет нигде. Это собщество самое крупное русскоязычное связанное с разговорным ИИ.
Поэтому спрашиваю тут - можете ли подсказать как deep pavlov framework может помочь в этом деле?
Обычно такое задание делается на так называемых utterances - отдельные сказанные слова. может есть чтото похожее или делали задание похожее на фреймворке deep pavlov?