Обучение с подкреплением ужасно – Андрей Карпатый

N/A·

Проблемы обучения с подкреплением в LLM [00:00]

  • Обучение с подкреплением (RL) работает хуже, чем принято считать, но оно лучше предыдущих методов, основанных на имитации [00:01]
  • В RL модель пробует множество вариантов решения задачи параллельно, а затем получает обратную связь по финальному результату [00:15]
  • Проблема RL в том, что оно приписывает успех всему пути, даже если большая часть действий была неверной, что приводит к высокому уровню шума в обучении [00:50]
  • RL «высасывает» информацию для обучения через соломинку, распространяя сигнал награды на всю траекторию, что неэффективно [01:35]
  • Люди никогда не будут использовать сотни одновременных попыток и будут более избирательно анализировать свои действия при нахождении решения [01:35]
  • В текущих LLM отсутствует механизм рефлексии и анализа собственных действий, подобный человеческому [02:19]
  • Имитационное обучение (IL) было удивительным, так как позволило дообучить базовые модели (автокомплит) на диалогах, чтобы они стали разговорными помощниками, сохранив при этом знания из предобучения [02:19]
  • InstructGPT показал, что модели могут быстро адаптироваться к стилю ассистента через несколько циклов дообучения на диалоговых данных [02:19]
  • RL позволяет добиться большего, чем просто имитация, так как можно использовать функции вознаграждения и находить решения, которые человек мог бы не обнаружить [03:02]
  • Несмотря на потенциал, RL в текущем виде остается «глупым» и требует дальнейших улучшений [03:02]

Сравнение обучения с подкреплением и имитационного обучения [03:42]

  • Существуют исследования, пытающиеся внедрить идеи рефлексии и обзора в RL, как, например, в работе Google с банком памяти [03:42]

Революция InstructGPT и имитационное обучение [03:50]

  • Ожидается крупное обновление алгоритмов для LLM в области RL, возможно, с внедрением идей рефлексии и обзора [03:51]
  • Потребуется еще несколько таких обновлений для достижения значительного прогресса [03:51]

Это саммари создано в Summa AI

Summa AI — это Telegram-бот,
который смотрит видео за вас
и создает саммари
с ключевыми идеями.