Tokenizer used in model inference

egorhowtocode · July 28, 2024, 6:21pm

Hi, I am puzzled with tokenizer being used in ner_rus_bert configuatrion. For example, after inferencing model with the input text “Обязанности: - Работа с документами: -Выписка первичной документации в 1 С (выписка счетов на оплату, УПД, актов выполненных работ, с/ф, ТТН, актов приема -передачи и тп) -Сбор, проверка, учет и хранение первичной документации - передача по реестрам бухгалтеру организации -ежемесячно -работа с кассовым аппаратом (редко) - прием, регистрация, учет и хранение доверенностей -формирование и рассылка актов сверок по Покупателям -учет и хранение документов по движению многооборотной тары, ведение таблицы в Excel - прием звонков, переписка по электронной почте с клиентами компании -ведение табеля учета рабочего времени -участие в инвентаризациях , занесение данных по результатам инвентаризации в таблицу Excel - ежемесячно -выполнение поручений руководства Требования: -уверенный пользователь ПК , знание основных офисных программ, желательно знание 1 С -желательно знание основ бухгалтерии (среднее-специальное образование по направлению : бухгалтерия) -оперативность, ответственность, исполнительность, внимательность. Условия: График работы 5/2 с 8.00 до 17.00, оформление по ТК РФ, дружная команда, при необходимости обучим. На время декретного отпуска” I get the following tokenized output:
[‘Обязанности:’,
‘-’,
‘Работа’,
‘с’,
‘документами:’,
‘-’,
‘Выписка’,
‘первичной’,
‘документации’,
‘в’,
‘1’,
‘С’,
‘(’,
‘выписка’,
‘счетов’,
‘на’,
‘оплату’,
‘,’,
‘УПД’,
‘,’,
‘актов’,
‘выполненных’,
‘работ’,
‘,’,
‘с’,
‘/’,
‘ф’,
‘,’,
‘ТТН’,
‘,’,
‘актов’,
‘приема’,
‘-’,
‘передачи’,
‘и’,
‘тп’,
‘)’,
‘-’,
‘Сбор’,
‘,’,
‘проверка’,
‘,’,
‘учет’,
‘и’,
‘хранение’,
‘первичной’,
‘документации’,
‘-’,
‘передача’,
‘по’,
‘реестрам’,
‘бухгалтеру’,
‘организации’,
‘-’,
‘ежемесячно’,
‘-’,
‘работа’,
‘с’,
‘кассовым’,
‘аппаратом’,
‘(’,
‘редко’,
‘)’,
‘-’,
‘прием’,
‘,’,
‘регистрация’,
‘,’,
‘учет’,
‘и’,
‘хранение’,
‘доверенностей’,
‘-’,
‘формирование’,
‘и’,
‘рассылка’,
‘актов’,
‘сверок’,
‘по’,
‘Покупателям’,
‘-’,
‘учет’,
‘и’,
‘хранение’,
‘документов’,
‘по’,
‘движению’,
‘многооборотной’,
‘тары’,
‘,’,
‘ведение’,
‘таблицы’,
‘в’,
‘Excel’,
‘-’,
‘прием’,
‘звонков’,
‘,’,
‘переписка’,
‘по’,
‘электронной’,
‘почте’,
‘с’,
‘клиентами’,
‘компании’,
‘-’,
‘ведение’,
‘табеля’,
‘учета’,
‘рабочего’,
‘времени’,
‘-’,
‘участие’,
‘в’,
‘инвентаризациях’,
‘,’,
‘занесение’,
‘данных’,
‘по’,
‘результатам’,
‘инвентаризации’,
‘в’,
‘таблицу’,
‘Excel’,
‘-’,
‘ежемесячно’,
‘-’,
‘выполнение’,
‘поручений’,
‘руководства’,
‘Требования:’,
‘-’,
‘уверенный’,
‘пользователь’,
‘ПК’,
‘,’,
‘знание’,
‘основных’,
‘офисных’,
‘программ’,
‘,’,
‘желательно’,
‘знание’,
‘1’,
‘С’,
‘-’,
‘желательно’,
‘знание’,
‘основ’,
‘бухгалтерии’,
‘(’,
‘среднее’,
‘-’,
‘специальное’,
‘образование’,
‘по’,
‘направлению’,
‘:’,
‘бухгалтерия’,
‘)’,
‘-’,
‘оперативность’,
‘,’,
‘ответственность’,
‘,’,
‘исполнительность’,
‘,’,
‘внимательность.’,
‘Условия:’,
‘График’,
‘работы’,
‘5’,
‘/’,
‘2’,
‘с’,
‘8.00’,
‘до’,
‘17.00’,
‘,’,
‘оформление’,
‘по’,
‘ТК’,
‘РФ’,
‘,’,
‘дружная’,
‘команда’,
‘,’,
‘при’,
‘необходимости’,
‘обучим.’,
‘На’,
‘время’,
‘декретного’,
‘отпуска’]
The thing is it is certainly not a wordpunct_tokenize as it would result in 204 tokens (for example, it would split “Обязанности:” into “Обязанности” and “:” and “17.00” into “17”, “.”, “00”) while tokenizer used inside model results in 194 tokens. I want to use the same tokenizer as the one used in the model. I tried to use tokenizers described here deeppavlov.models.tokenizers — DeepPavlov 1.6.0 documentation but I could not find the one that produces the same result.

natriistorm · July 30, 2024, 12:15pm

Hello,

the tokenizer used in ner_rus_bert configuatrion is DeepPavlov/rubert-base-cased · Hugging Face

Topic		Replies	Views
NER - "input sequence after bert tokenization shouldn't exceed 512 tokens" (ner_conll2003_bert) Models	5	157	April 24, 2024
Дообучение модели ner_rus_bert. Проблема с длиной входной последовательности в данных Models	5	1699	April 5, 2020
DeepPavlov ner tokenization DeepPavlov Library	1	477	December 6, 2019
Associate NER with lemma Models	1	290	February 26, 2021
Lemmatization using DeepPavlov pre-trained models Models	3	579	February 16, 2021

Tokenizer used in model inference

Related topics