Speech diariazation на русском датасете?

Привет, я делаю на работе так называемый speech diarization - это когда надо записанный аудиофайл разговора разметить по времени кто где говорил.
то есть “WHO SPOKE WHEN”
Примерно так:

speaker1 - 0.01 - 0.10 (говорил с 1 по 10 секунды)
speaker2 - 0.11 - 0.20 (2 человек говорил с 11 по 20 секунды)
speaker1 - 0.22 - 0.24
speaker3 - 0.25 - 0.30

То есть “who speak what” - сами слова узнавать не надо.

В разговоре у нас будет скорее 2 человека(клиент компании и работник компании - тех поддержка)

Я уже гуглил и не нашел русский датасет нигде. Это собщество самое крупное русскоязычное связанное с разговорным ИИ.
Поэтому спрашиваю тут - можете ли подсказать как deep pavlov framework может помочь в этом деле?

Обычно такое задание делается на так называемых utterances - отдельные сказанные слова. может есть чтото похожее или делали задание похожее на фреймворке deep pavlov?

Привет!
На русском про такие датасеты я не слышал, так что рекомендую посмотреть в сторону английского языка.
Советую вот тут посмотреть https://github.com/wq2012/awesome-diarization

Еще рекомендую глянуть на https://reason8.ai/ - это приложение как раз делает транскрипцию разговора и показывает кто, что и когда говорил.

спс! приложение интересное - завернули видимо и продали… нашей компании надо такое , только своими силами.

значит дип павлов немного для др задач… спс