Few-shot classification

Здравствуйте! Извините за, возможно, некорректный вопрос, я недавно погрузился в тему NLP. Вопрос следующий, какую модель мне стоит выбрать из множества моделей deeppavlov, если мне нужно классифицировать русскоязычные тексты по примерно 90 классам?
Обучающих данных мало (их почти нет), поэтому думаю попробовать few-shot подход. Zero-shot вряд-ли подойдёт, так как данные слишком специфичны. Я попробовал модель DeepPavlov/xlm-roberta-large-en-ru-mnli на zero-shot, вроде бы она неплохо классифицирует, как и модель facebook/bart-large-mnli. Вообще не очень понятно, обязательно ли мне использовать модель, обученную на русских текстах или можно взять универсальную?
В общем прошу совета, заранее спасибо.

Здравствуйте, подскажите сколько в вашей обучающей выборке примеров? Какой размер у самого маленького класса?

Здравствуйте, у самого маленького класса в обучающей выборке 100 текстов. И в общем-то у всех остальных примерно столько же.

С таким количеством примеров вам стоит попробовать обучить обычные multilingual модели, например microsoft/mdeberta-v3-base, она может показать качество получше русскоязычных моделей, но всё зависит от ваших данных. Ещё можете попробовать нашу few-shot модель, её не надо дообучать, но может быть медленный инференс .

Спасибо, попробую! Но ещё вопрос, с какой русскоязычной моделью стоит сравнить microsoft/mdeberta-v3-base? Например с DeepPavlov/xlm-roberta-large-en-ru-mnli или с какой-то другой?

Можете посравниваться с DeepPavlov/xlm-roberta-large-en-ru и ai-forever/ruRoberta-large

Спасибо вам за ответы. Есть ещё один вопрос, сколько по вашему нужно сэмплов на каждый класс при обучении моделей типа microsoft/mdeberta-v3-base, DeepPavlov/xlm-roberta-large-en-ru, ai-forever/ruRoberta-large? Как я понял, при 90 классах, по 100 на класс может быть достаточно, и ясно, что больше - лучше, но по вашему опыту, какой диапазон вы бы назвали? 1000 - 5000? Или скорее 10000 сэмплов на класс? А может больше?