I have a text:
Главной проблемой стала раздача средств без контроля и целей. Как пишет аудитор Светлана Орлова, в заключаемых с регионами соглашениях не прописаны ни количественные, ни качественные показатели результативности. Никаких мер ответственности за нарушения взятых на себя обязательств в договорах также не нашли.
If I process it using ner_rus_bert
, that’s what I get:
[[['\n', 'Проекты', 'развития', 'малых', 'городов', 'России', 'реализуют', 'недостаточно', 'эффективно', ',', 'хотя', 'на', 'эти', 'цели', 'из', 'бюджета', 'выделяются', 'серьезные', 'деньги', '.',
'К', 'такому', 'выводу', 'пришли', 'в', 'ходе', 'проверки', 'аудиторы', 'Счетной', 'палаты', '.', 'Отчет', 'опубликован', 'на', 'сайте', 'ведомства', '.', '\n', '\n', 'Главной', 'проблемой', 'стала',
'раздача', 'средств', 'без', 'контроля', 'и', 'целей', '.', 'Как', 'пишет', 'аудитор', 'Светлана', 'Орлова', ',', 'в', 'заключаемых', 'с', 'регионами', 'соглашениях', 'не', 'прописаны', 'ни', 'количественные', ',', 'ни', 'качественные', 'показатели', 'результативности', '.', 'Никаких', 'мер', 'ответственности', 'за', 'нарушения', 'взятых', 'на', 'себя', 'обязательств', 'в', 'договорах', 'также', 'не',
'нашли', '.', '\n', '\n', 'Таким', 'образом', ',', 'говорится', 'в', 'докладе', ',', 'заявленный', 'социально', '-', 'экономический', 'эффект', 'от', 'программ', ',', 'победивших', 'в', 'конкурсе', 'на', 'получение', 'помощи', ',', 'не', 'достигнут', '.', 'Государство', 'выделяет', 'деньги', 'на', 'развитие',
'городов', 'и', 'исторических', 'поселений', 'с', '2018', 'года', '.', 'По', 'состоянию', 'на', 'конец', 'прошлого', 'года', ',', 'из', '240', 'проектов', 'реализованы', '166', ',', 'на', 'них', 'потрачены', '15', 'миллиардов', 'рублей', '.', '\n']],
[['O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',
'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',
'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-PER', 'I-PER', 'O', 'O', 'O', 'O',
'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',
'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',
'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',
'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']]]
Which is perfect. The position of a person marker (['B-PER', 'I-PER',]
) is 53.
However if I lemmatize the same string the position of the lemmatized person will be 40 because lemmatizer strips punctuation signs. Is there a straightforward way to get lemmatized item from model results? I can of course retrieve B-PER
position and lemmatize it after that, but I just wonder if DeepPavlov has something ready-made for that? Thank you!
[['проект', 'развитие', 'малое', 'город', 'россия', 'реализовать', 'недостаточно', 'эффективно', 'хотя', 'на', 'этот', 'цель', 'из', 'бюджет', 'выделяться', 'серьёзный', 'к', 'такой', 'вывод', 'прислать', 'в', 'ход', 'проверка', 'аудитор', 'счётный', 'отчёт', 'опубликовать', 'на', 'сайт', 'главный', 'проблема', 'стать', 'раздача', 'средство', 'без', 'контроль', 'и', 'как', 'писать', 'аудитор', 'светлана', 'орлов', 'в', 'заключать', 'с', 'регион', 'соглашение', 'не', 'прописать', 'ни', 'количественный', 'ни', 'качественный', 'показатель', 'никакой', 'мера', 'ответственность', 'за', 'нарушение', 'взять', 'на', 'себя', 'обязательство', 'в', 'договор', 'также', 'не', 'такой', 'образ', 'говориться', 'в', 'доклад', 'заявить', 'эффект', 'от', 'программа', 'победить', 'в', 'конкурс', 'на', 'получение', 'помощь', 'не', 'государство', 'выделять', 'деньга', 'на', 'развитие', 'город', 'и', 'исторический', 'поселение', 'с', 'по', 'состояние', 'на', 'конец', 'прошлое', 'год', 'из', 'проект', 'реализовать', 'на', 'они', 'потратить', 'миллиард', 'рубль']]