Speech diariazation на русском датасете?

hivauz · January 10, 2020, 10:05am

Привет, я делаю на работе так называемый speech diarization - это когда надо записанный аудиофайл разговора разметить по времени кто где говорил.
то есть “WHO SPOKE WHEN”
Примерно так:

speaker1 - 0.01 - 0.10 (говорил с 1 по 10 секунды)
speaker2 - 0.11 - 0.20 (2 человек говорил с 11 по 20 секунды)
speaker1 - 0.22 - 0.24
speaker3 - 0.25 - 0.30
…

То есть ~~“who speak what”~~ - сами слова узнавать не надо.

В разговоре у нас будет скорее 2 человека(клиент компании и работник компании - тех поддержка)

Я уже гуглил и не нашел русский датасет нигде. Это собщество самое крупное русскоязычное связанное с разговорным ИИ.
Поэтому спрашиваю тут - можете ли подсказать как deep pavlov framework может помочь в этом деле?

Обычно такое задание делается на так называемых utterances - отдельные сказанные слова. может есть чтото похожее или делали задание похожее на фреймворке deep pavlov?

sld · January 10, 2020, 10:46am

Привет!
На русском про такие датасеты я не слышал, так что рекомендую посмотреть в сторону английского языка.
Советую вот тут посмотреть https://github.com/wq2012/awesome-diarization

Еще рекомендую глянуть на https://reason8.ai/ - это приложение как раз делает транскрипцию разговора и показывает кто, что и когда говорил.

hivauz · January 10, 2020, 10:49am

спс! приложение интересное - завернули видимо и продали… нашей компании надо такое , только своими силами.

значит дип павлов немного для др задач… спс

Topic		Replies	Views
DeepPavlov at NeurIPSConf Announcements	0	428	December 9, 2019
Speech to text recognizing Models	1	371	April 10, 2020
Let's get to know each other! Let's get to know each other!	6	838	October 28, 2019
About the Documentation category Documentation	0	310	May 29, 2020
Документация на русском языке	1	446	April 6, 2021

Speech diariazation на русском датасете?

Related topics