Awesome-rlaif ☄
Куратор и обновленный список соответствующих статей и репозиториев по подкреплению обучения от обратной связи с искусственным интеллектом (RLAIF) . В частности, в этом списке мы отслеживаем следующие мотивы:
- Используя RL для оптимизации LLM без человека , т.е. с критикой LM в качестве модели вознаграждения.
- Используя LLM для генерации обратной связи, в контуре самокритики .
Некоторые из перечисленных ресурсов также можно рассматривать как часть RLHF: граница размыта. Есть уже удивительные списки RLHF, таким образом, здесь мы сосредоточимся на двух предыдущих точках.
Статьи
Статьи отсортированы в хронологическом порядке.
2024
- 2401.10020 Самостоятельные языковые модели
Абстрактный
Мы полагаем, что для достижения сверхчеловеческих агентов будущие модели требуют сверхчеловеческой обратной связи, чтобы дать адекватный сигнал обучения. Современные подходы обычно обучают модели вознаграждения от человеческих предпочтений, которые затем могут быть узкими на уровне производительности человека, и, во -вторых, эти отдельные модели замороженных вознаграждений не могут затем научиться улучшаться во время обучения LLM. В этой работе мы изучаем самообслуживающие языковые модели, где сама языковая модель используется через побуждение LLM-как сужу Мы показываем, что во время итеративного обучения DPO, которое не только улучшает обучение после способности, но и способность обеспечить высококачественные вознаграждения для себя. Точная настройка Llama 2 70b о трех итерациях нашего подхода дает модель, которая превосходит многие существующие системы в таблице лидеров Alpacaeval 2.0, включая Claude 2, Gemini Pro и GPT-4 0613. В то время как только предварительное исследование, эта работа открывает дверь для моделей, которые могут постоянно улучшаться в обоих топорах.
2023
2309.00267 RLAIF: масштабирование подкрепления обучения от обратной связи с человеком с обратной связью с ИИ
Абстрактный
Подкрепление обучения от обратной связи человека (RLHF) эффективно для выравнивания больших языковых моделей (LLMS) на предпочтения человека, но сбор высококачественных меток для человеческих предпочтений является ключевым узким местом. Мы проводим сравнение RLHF и RL от обратной связи AI (RLAIF)-методика, в которой предпочтения помечены готовым LLM вместо людей, и мы обнаруживаем, что они приводят к аналогичным улучшениям. В задаче суммирования оценщики человека предпочитают поколения как из RLAIF, так и RLHF по сравнению с базовой контролируемой моделью с тонкой настройкой в ~ 70% случаев. Кроме того, когда их попросят оценить RLAIF по сравнению с RLHF РЕЗЮМЕ, люди предпочитают оба по равным. Эти результаты предполагают, что RLAIF может привести к производительности на уровне человека, предлагая потенциальное решение ограничений масштабируемости RLHF.
2309.07124 Дождь: ваши языковые модели могут выровнять себя без создания
Абстрактный
Большие языковые модели (LLMS) часто демонстрируют несоответствия с человеческими предпочтениями. Предыдущие исследования собрали данные о предпочтениях человека, а затем выровняли предварительно обученные модели, используя обучение подкрепления или настройку инструкций, так называемый этап создания. Напротив, выравнивание замороженных LLM без каких -либо дополнительных данных является более привлекательным. Эта работа исследует потенциал последней обстановки. Мы обнаруживаем, что, интегрируя механизмы самооценки и перемотки, невыполненные LLM могут напрямую создавать ответы, соответствующие человеческим предпочтениям посредством самовыражения. Мы вводим новый метод вывода, перемотимый ауторегрессивный вывод (дождь), который позволяет предварительно обученным LLMS оценивать свое собственное поколение и использовать результаты оценки, чтобы направлять перемотку обратной перемотки и форвардную генерацию для безопасности ИИ. Примечательно, что дождь работает без необходимости дополнительных данных для выравнивания моделей и воздержания от любого обучения, расчета градиентов или обновлений параметров; На этапе самооценки модель получает руководство, по которому человеческие предпочтения соответствуют приглашению с фиксированным характером, что устраняет необходимость изменения первоначальной подсказки. Экспериментальные результаты, оцениваемые GPT-4, и люди, демонстрируют эффективность дождя: на наборе данных HH дождь улучшает безвредную частоту Llama 30B по сравнению с ванильным выводом с 82% до 97%, сохраняя при этом частоту полезности. В соответствии с ведущими состязательными атаками LLM Attacks на Vicuna 33B, Rain устанавливает новую базовую линию обороны, снижая уровень успеха атаки с 94% до 19%.
2308.06385 Zyn: модели вознаграждений с нулевым выстрелом с вопросами да-нет
Абстрактный
В этой работе мы решаем проблему направления текстовых поколений LLM на желаемое поведение, выравнивая сгенерированный текст с предпочтениями человека -оператора. Мы предлагаем использовать еще одну языковую модель в качестве критика, модель вознаграждения нулевым выстрелом благодаря подсказке вопроса «да нет нет», который представляет предпочтения пользователя, не требуя дополнительных помеченных данных. Эта модель вознаграждения с нулевым выстрелом обеспечивает сигнал обучения для дальнейшей настройки базового LLM с использованием обучения армированию, как в RLAIF; Тем не менее, наш подход также совместим в других контекстах, таких как поиск качества. Обширные доказательства возможностей предлагаемой структуры Zyn предоставляются посредством экспериментов в различных областях, связанных с генерацией текста, включая детоксикацию; оптимизация настроений обзоров фильмов или любого другого атрибута; Управлять мнением по конкретной теме, которую модель может иметь; и персонализирующие приглашенные генераторы для задач текста до изображения.
2307.12950 RLCD: подкрепление обучения из контрастной дистилляции для выравнивания языковой модели
Абстрактный
Мы предлагаем подкрепление обучения из контрастной дистилляции (RLCD), метода для выравнивания языковых моделей, чтобы следовать принципам естественного языка без использования обратной связи человека. RLCD обучает модель предпочтения с использованием моделируемых пар предпочтений, которые содержат как высококачественный, так и низкокачественный пример, созданный с использованием контрастных положительных и отрицательных подсказок. Затем модель предпочтений используется для улучшения базовой модели невыполненного языка посредством обучения подкреплению. Эмпирически RLCD превосходит RLAIF (Bai et al., 2022b) и контекстные дистилляции (Huang et al., 2022).
2022
- 2212.08073 Конституционный AI: безвреднее время от обратной связи с ИИ
Абстрактный
По мере того, как системы ИИ становятся более способными, мы хотели бы заручиться их помощью, чтобы контролировать другие ИИ. Мы экспериментируем с методами обучения безвредного помощника ИИ с помощью самосовершенствования, без каких-либо человеческих ярлыков, выявляющих вредные результаты. Единственный человеческий контроль обеспечивается через список правил или принципов, и поэтому мы называем метод как «конституционный AI». Процесс включает в себя как контролируемое обучение, так и этап подкрепления. На контролируемой фазе мы выбираем из первоначальной модели, затем генерируем самокритики и пересмотры, а затем определяем исходную модель на пересмотренных ответах. На фазе RL мы выбираем из созданной модели, используем модель, чтобы оценить, какие из двух образцов лучше, а затем обучать модель предпочтения из этого набора данных о предпочтениях ИИ. Затем мы тренируемся с RL, используя модель предпочтения в качестве сигнала вознаграждения, то есть мы используем «RL от обратной связи AI» (RLAIF). В результате мы можем обучить безобидного, но не достоверного помощника ИИ, который взаимодействует с вредными запросами, объясняя его возражения против них. Оба метода SL и RL могут использовать рассуждения в стиле мышления в цепочке для улучшения производительности и прозрачности для принятия решений искусственным интеллектом. Эти методы позволяют контролировать поведение ИИ более точно и с гораздо меньшим количеством человеческих ярлыков.
Код
Здесь мы отслеживаем репозитории и фрагменты кода, которые имеют отношение к RLAIF.
- Autocrit a Repository для обучения критики трансформатора и поколения
- Zero-Shot-Reward-Models Zyn: модели вознаграждения с нулевым выстрелом с вопросами да-нет
- Самокритическая цепочка цепи с конституционным ИИ, используя Langchain
Вклад ❤
Пожалуйста, не стесняйтесь отправлять PR, если вы хотите включить ресурсы в этот список!