Обучение с подкреплением ужасно – Андрей Карпатый - Саммари

Проблемы обучения с подкреплением в LLM [00:00]

Обучение с подкреплением (RL) работает хуже, чем принято считать, но оно лучше предыдущих методов, основанных на имитации [00:01]
В RL модель пробует множество вариантов решения задачи параллельно, а затем получает обратную связь по финальному результату [00:15]
Проблема RL в том, что оно приписывает успех всему пути, даже если большая часть действий была неверной, что приводит к высокому уровню шума в обучении [00:50]
RL «высасывает» информацию для обучения через соломинку, распространяя сигнал награды на всю траекторию, что неэффективно [01:35]
Люди никогда не будут использовать сотни одновременных попыток и будут более избирательно анализировать свои действия при нахождении решения [01:35]
В текущих LLM отсутствует механизм рефлексии и анализа собственных действий, подобный человеческому [02:19]
Имитационное обучение (IL) было удивительным, так как позволило дообучить базовые модели (автокомплит) на диалогах, чтобы они стали разговорными помощниками, сохранив при этом знания из предобучения [02:19]
InstructGPT показал, что модели могут быстро адаптироваться к стилю ассистента через несколько циклов дообучения на диалоговых данных [02:19]
RL позволяет добиться большего, чем просто имитация, так как можно использовать функции вознаграждения и находить решения, которые человек мог бы не обнаружить [03:02]
Несмотря на потенциал, RL в текущем виде остается «глупым» и требует дальнейших улучшений [03:02]

Сравнение обучения с подкреплением и имитационного обучения [03:42]

Существуют исследования, пытающиеся внедрить идеи рефлексии и обзора в RL, как, например, в работе Google с банком памяти [03:42]

Революция InstructGPT и имитационное обучение [03:50]

Ожидается крупное обновление алгоритмов для LLM в области RL, возможно, с внедрением идей рефлексии и обзора [03:51]
Потребуется еще несколько таких обновлений для достижения значительного прогресса [03:51]

Проблемы обучения с подкреплением в LLM [00:00]

Сравнение обучения с подкреплением и имитационного обучения [03:42]

Революция InstructGPT и имитационное обучение [03:50]

Это саммари создано в Summa AI