Running out of memory

I m following this tutorial dp_tutorials/Tutorial_3_RU_Fine_tuning_BERT_classifier.ipynb at master · deepmipt/dp_tutorials · GitHub but instead of Bert English, I am using RuBert. I am doing everything very similar, except for these couple lines of code where I need to change the config. When I train English Tweets it runs perfect, but when I train Russian ones I always ran out of memory. Dataset size English and Russian both are pretty similar. What am I doing wrong?

I tried to use both BERT parameter
RuBERT, Russian
Conversational RuBERT, Russian

My dataset looks like following:

     content	                             emotions

0 Обычная семья: муж - в море, жена - с маленьки… smile
1 Я знаком с этой конторой и обхожу ее стороной,… angry
2 Нужна мне была квартира надолго(около года) по… smile
3 Мой друг: - Не корми мою собаку сыром у неё п… smile
4 Твит Маска: «Если жизнь - это компьютерная игр… smile