Скорость работы NER на TESLA P100 (сравнение CPU vs GPU)

Протестировал на GPU скорость работы извлечения именованных сущностей от DeepPavlov. Многоязычная модель - ner_ontonotes_bert_mult.
Тест проводился в докере, запрос к модели через предоставляемый API.

Стенд 1. Intel Core i7-6700: 4 × 3.4ГГц 64Гб
Стенд 2. GPU TESLA P100 16GB

Загружалась книжка на 14 тыс. предложений.
Стенд 1 = 806 секунд - пачками по 1 предложений (если делать больше замедляется)
Стенд 2 = 125 секунд - пачками по 100 предложений (если делать больше ошибка размера)
(модель ner_rus_bert на GPU - 93 секунды)

GPU отработал быстрее в 6,5 раз, что очень мало, на взгляд моих ожиданий.

Это адекватная скорость работы таких моделей или я мог что-то неправильно сделать?

Да, для этой NER модели мы наблюдаем примерно такую же разницу в скорости работы для CPU и GPU.

А ner_rus_bert оказался быстрее из-за токенизации, в этой модели используется словарь для русского языка и разбиение на токены оказывается короче по сравнению с multilingual словарем.