Оценка качества "Automatic spelling correction component"

serbul · March 12, 2019, 2:18pm

Добрый день! Подскажите пожалуйста, в таблице характеристик оценки качества Automatic spelling correction component указана precision в лучшем случае (кроме Yandex.Speller) как 53.26%. Можете подсказать, в каком контексте она подсчитана:

Из 100 искаженных слов на входе в половине случаев модель не предложила правильные корректировки. Этот вариант допустим, т.к. модель помогла в половине случаев.
Из 100 искаженных слов на входе в половине случаев модель предложила неправильные корректировки. В этом случае модель как бы не помогла и ухудшила ситуацию.
Из 100 искаженных слов на входе в половине случаев модель либо не предложила корректировку либо предложила неправильную?

Возможно ли использование модели с порогом решающего правила таким, чтобы использовались такие подсказки, в которых модель “сильно” уверенна? Суть в том, что хочется максимально исключить случаи неправильной рекомендации слова - т.е. чтобы модель помогала, а не вредила. Спасибо!

yoptar · March 12, 2019, 3:29pm

Из ста исправлений половина была правильной, то есть правильное или искажённое слово было заменено на искажённое.

Можно попробовать уменьшить штраф за отсутствие слова в словаре, тогда precision растёт, но recall (количество правильных исправлений, делённое на количество исходных ошибок) падает.
Этого пока нельзя сделать в конфигах, но попробуем добавить https://github.com/deepmipt/DeepPavlov/pull/747 в ближайших релизах

serbul · March 12, 2019, 4:26pm

Да, интересно посмотеть без штрафа за отсутствие слов в словаре. Именно precision - сколько процентов ошибок модель сделала, предложив неправильное исправление = число предложенных ошибочных исправлений / число предложенных исправлений. По идее recall будет регулироваться объемом словаря и его можно отдельно замерять и наращивать словарь. Тут критично именно не навредить - не исказить исходный текс.

Topic		Replies	Views
"Оценка качества "Automatic spelling correction component"" was flagged as spam Models	1	359	June 25, 2019
Выделение сути предложения DeepPavlov Library	1	357	June 2, 2020
Как добавить дополнительный словарь в файл levenshtein_corrector_ru.json? DeepPavlov Library	0	223	November 3, 2021
Как сделать бота как в примере text qa	6	411	November 29, 2021
Wordpiece tokenization russian DeepPavlov Library	2	701	June 1, 2020

Оценка качества "Automatic spelling correction component"

Related topics