Associate NER with lemma

chapkovski · February 16, 2021, 8:29am

I have a text:

Главной проблемой стала раздача средств без контроля и целей. Как пишет аудитор Светлана Орлова, в заключаемых с регионами соглашениях не прописаны ни количественные, ни качественные показатели результативности. Никаких мер ответственности за нарушения взятых на себя обязательств в договорах также не нашли.

If I process it using ner_rus_bert, that’s what I get:

[[['\n', 'Проекты', 'развития', 'малых', 'городов', 'России', 'реализуют', 'недостаточно', 'эффективно', ',', 'хотя', 'на', 'эти', 'цели', 'из', 'бюджета', 'выделяются', 'серьезные', 'деньги', '.',
 'К', 'такому', 'выводу', 'пришли', 'в', 'ходе', 'проверки', 'аудиторы', 'Счетной', 'палаты', '.', 'Отчет', 'опубликован', 'на', 'сайте', 'ведомства', '.', '\n', '\n', 'Главной', 'проблемой', 'стала', 
'раздача', 'средств', 'без', 'контроля', 'и', 'целей', '.', 'Как', 'пишет', 'аудитор', 'Светлана', 'Орлова', ',', 'в', 'заключаемых', 'с', 'регионами', 'соглашениях', 'не', 'прописаны', 'ни', 'количественные', ',', 'ни', 'качественные', 'показатели', 'результативности', '.', 'Никаких', 'мер', 'ответственности', 'за', 'нарушения', 'взятых', 'на', 'себя', 'обязательств', 'в', 'договорах', 'также', 'не', 
'нашли', '.', '\n', '\n', 'Таким', 'образом', ',', 'говорится', 'в', 'докладе', ',', 'заявленный', 'социально', '-', 'экономический', 'эффект', 'от', 'программ', ',', 'победивших', 'в', 'конкурсе', 'на', 'получение', 'помощи', ',', 'не', 'достигнут', '.', 'Государство', 'выделяет', 'деньги', 'на', 'развитие', 
'городов', 'и', 'исторических', 'поселений', 'с', '2018', 'года', '.', 'По', 'состоянию', 'на', 'конец', 'прошлого', 'года', ',', 'из', '240', 'проектов', 'реализованы', '166', ',', 'на', 'них', 'потрачены', '15', 'миллиардов', 'рублей', '.', '\n']],
 [['O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 
'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',
 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-PER', 'I-PER', 'O', 'O', 'O', 'O',
 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',
 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 
'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',
 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']]]

Which is perfect. The position of a person marker (['B-PER', 'I-PER',]) is 53.

However if I lemmatize the same string the position of the lemmatized person will be 40 because lemmatizer strips punctuation signs. Is there a straightforward way to get lemmatized item from model results? I can of course retrieve B-PER position and lemmatize it after that, but I just wonder if DeepPavlov has something ready-made for that? Thank you!

[['проект', 'развитие', 'малое', 'город', 'россия', 'реализовать', 'недостаточно', 'эффективно', 'хотя', 'на', 'этот', 'цель', 'из', 'бюджет', 'выделяться', 'серьёзный', 'к', 'такой', 'вывод', 'прислать', 'в', 'ход', 'проверка', 'аудитор', 'счётный', 'отчёт', 'опубликовать', 'на', 'сайт', 'главный', 'проблема', 'стать', 'раздача', 'средство', 'без', 'контроль', 'и', 'как', 'писать', 'аудитор', 'светлана', 'орлов', 'в', 'заключать', 'с', 'регион', 'соглашение', 'не', 'прописать', 'ни', 'количественный', 'ни', 'качественный', 'показатель', 'никакой', 'мера', 'ответственность', 'за', 'нарушение', 'взять', 'на', 'себя', 'обязательство', 'в', 'договор', 'также', 'не', 'такой', 'образ', 'говориться', 'в', 'доклад', 'заявить', 'эффект', 'от', 'программа', 'победить', 'в', 'конкурс', 'на', 'получение', 'помощь', 'не', 'государство', 'выделять', 'деньга', 'на', 'развитие', 'город', 'и', 'исторический', 'поселение', 'с', 'по', 'состояние', 'на', 'конец', 'прошлое', 'год', 'из', 'проект', 'реализовать', 'на', 'они', 'потратить', 'миллиард', 'рубль']]

yurakuratov · February 26, 2021, 12:41pm

Hi!

I think you solution with extracting B-PER, I-PER and following lemmatization is fine. There is no ready configuration file in DeepPavlov that solves NER and lemmatization tasks in one shot.
In case, if you are interested in creating such configuration file you might take a look at morphotagger + lemmatization in Neural Morphological Tagging — DeepPavlov 0.14.0 documentation. Contributions are also welcome!

Topic		Replies	Views
Лемматизация терминов-словосочетаний DeepPavlov Library	4	654	November 14, 2019
NER позиция найденной сущности в тексте DeepPavlov Library	1	438	October 25, 2019
Lemmatization using DeepPavlov pre-trained models Models	3	619	February 16, 2021
Tokenizer used in model inference Models	1	39	July 30, 2024
Обучение NER на своих данных DeepPavlov Library	2	883	July 18, 2019

Associate NER with lemma

Related topics