Как уменьшить время отклика модели ner_rus_bert?

Решаю задачу NER с помощью стандартной конфигурации ner_rus_bert, натренерованной на своих данных. На извлечение двух типов именованных сущностей из файла размером 197кб уходит 17 минут, загрузка ЦП до 98%, оперативная память (на машине 20ГБ) используется до 18ГБ. Как можно ускорить обработку файла? С какой стороны вообще подойти к проблеме?

Текст файла делю на 10 частей и сети передаю этими частями (если целиком, то может работать час и потом “отвалиться”).

На каком процессоре обработка идёт? Самый прямой путь ускорить на cpu это перейти на современный многоядерный, либо уже на gpu.

Я тестировал обработку через API - оптимально по скорости было одновременно передавать 10 предложений по 500 байт текста.