Протестировал на GPU скорость работы извлечения именованных сущностей от DeepPavlov. Многоязычная модель - ner_ontonotes_bert_mult.
Тест проводился в докере, запрос к модели через предоставляемый API.
Стенд 1. Intel Core i7-6700: 4 × 3.4ГГц 64Гб
Стенд 2. GPU TESLA P100 16GB
Загружалась книжка на 14 тыс. предложений.
Стенд 1 = 806 секунд - пачками по 1 предложений (если делать больше замедляется)
Стенд 2 = 125 секунд - пачками по 100 предложений (если делать больше ошибка размера)
(модель ner_rus_bert на GPU - 93 секунды)
GPU отработал быстрее в 6,5 раз, что очень мало, на взгляд моих ожиданий.
Это адекватная скорость работы таких моделей или я мог что-то неправильно сделать?