Best practices по подготовке datasets

Может кто подскажет какие есть рекомендации по подготовки dataset для обучения модели классификации сообщений (максимальная/минимальная длина сообщения, минимальное количество сообщений, настройки конфигов с которыми можно подкрутить и тд). Может есть в закладках ссылки на хорошие статьи по теме?

Добрый день,

а какую конкретно задачу классификации планируется решать? Для разных задач классификации подойдут разные параметры.

Возможно Few-Shot классификация будет полезна, чтобы обуславливаться только на сами данные:
https://docs.deeppavlov.ai/en/master/features/models/classification.html#7.1-Few-shot-setting

1 Like

Пока готовлю dataset для классификация insult/Not insult на русском языку,