Как правильно подготовить данные для модели NER

Добрый день,
подскажите, пожалуйста: для обучения NER модели нужно отобрать только те предложения, в которых есть теги B и I, или предложения с исключительно нейтральными тегами О тоже нужны?
Оставлять ли --DOCSTART–?

Предложения с “О” тоже нужны. Идеальный случай, когда пропорции тагов во время обучения и во время инференса совпадают. Есть ли в предложениях таги или нет - не важно нужно обучаться на этом. Если оставить только примеры где таги есть, сетка будет чаще размечать сущности там где их нет (понизится Precision).