Reinforcement learning is terrible – Andrej Karpathy
Проблемы обучения с подкреплением в LLM [00:00] - Обучение с подкреплением (RL) работает хуже, чем принято считать, но оно лучше предыдущих методов, основанных на имитации [00:01] - В RL модель пробуе...