Обучение с подкреплением ужасно – Андрей Карпатый
N/A·
Проблемы обучения с подкреплением в LLM [00:00]
- Обучение с подкреплением (RL) работает хуже, чем принято считать, но оно лучше предыдущих методов, основанных на имитации [00:01]
- В RL модель пробует множество вариантов решения задачи параллельно, а затем получает обратную связь по финальному результату [00:15]
- Проблема RL в том, что оно приписывает успех всему пути, даже если большая часть действий была неверной, что приводит к высокому уровню шума в обучении [00:50]
- RL «высасывает» информацию для обучения через соломинку, распространяя сигнал награды на всю траекторию, что неэффективно [01:35]
- Люди никогда не будут использовать сотни одновременных попыток и будут более избирательно анализировать свои действия при нахождении решения [01:35]
- В текущих LLM отсутствует механизм рефлексии и анализа собственных действий, подобный человеческому [02:19]
- Имитационное обучение (IL) было удивительным, так как позволило дообучить базовые модели (автокомплит) на диалогах, чтобы они стали разговорными помощниками, сохранив при этом знания из предобучения [02:19]
- InstructGPT показал, что модели могут быстро адаптироваться к стилю ассистента через несколько циклов дообучения на диалоговых данных [02:19]
- RL позволяет добиться большего, чем просто имитация, так как можно использовать функции вознаграждения и находить решения, которые человек мог бы не обнаружить [03:02]
- Несмотря на потенциал, RL в текущем виде остается «глупым» и требует дальнейших улучшений [03:02]
Сравнение обучения с подкреплением и имитационного обучения [03:42]
- Существуют исследования, пытающиеся внедрить идеи рефлексии и обзора в RL, как, например, в работе Google с банком памяти [03:42]
Революция InstructGPT и имитационное обучение [03:50]
- Ожидается крупное обновление алгоритмов для LLM в области RL, возможно, с внедрением идей рефлексии и обзора [03:51]
- Потребуется еще несколько таких обновлений для достижения значительного прогресса [03:51]
Это саммари создано в Summa AI
Summa AI — это Telegram-бот,
который смотрит видео за вас
и создает саммари
с ключевыми идеями.