génial-rlaif ☄️
Une liste organisée et mise à jour d'articles et de référentiels pertinents sur l'apprentissage du renforcement de la rétroaction de l'IA (RLAIF) . En particulier, dans cette liste, nous gardons une trace des motifs suivants:
- Utilisation de RL pour optimiser les LLM sans humains , c'est-à-dire avec une critique LM comme modèle de récompense.
- Utilisation de LLMS pour générer des commentaires, dans une boucle autocritique .
Certaines des ressources répertoriées pourraient également être considérées comme faisant partie de RLHF: la frontière est floue. Il y a déjà des listes impressionnantes de RLHF, ainsi, nous nous concentrons ici sur les deux points précédents.
Articles
Les articles sont triés chronologiquement.
2024
- 2401.10020 Modèles de langue auto-récompense
Abstrait
Nous affirmons que pour atteindre des agents surhumains, les futurs modèles nécessitent une rétroaction surhumaine afin de fournir un signal de formation adéquat. Les approches actuelles entraînent généralement les modèles de récompense des préférences humaines, qui peuvent ensuite être goulots d'étranglement par le niveau de performance humaine, et deuxièmement, ces modèles de récompense congelés distincts ne peuvent ensuite pas apprendre à s'améliorer pendant la formation LLM. Dans ce travail, nous étudions les modèles de langage auto-récompense, où le modèle de langue lui-même est utilisé via LLM-AS-A-JUDUD, incitant à fournir ses propres récompenses pendant la formation. Nous montrons que pendant la formation itérative DPO qui non seulement les instructions suivant la capacité s'améliore, mais aussi la capacité de se fournir des récompenses de haute qualité. Finezing Llama 2 70b sur trois itérations de notre approche donne un modèle qui surpasse de nombreux systèmes existants sur le classement Alpacaeval 2.0, y compris Claude 2, Gemini Pro et GPT-4 0613. Bien que seule une étude préliminaire, ce travail ouvre la porte à la possibilité de modèles qui ne peuvent pas s'améliorer dans les deux axes.
2023
2309.00267 RLAIF: Échelle de renforcement d'apprentissage de la rétroaction humaine avec la rétroaction de l'IA
Abstrait
Le renforcement de l'apprentissage de la rétroaction humaine (RLHF) est efficace pour aligner les modèles de grandes langues (LLM) aux préférences humaines, mais la collecte d'étiquettes de préférence humaine de haute qualité est un goulot d'étranglement clé. Nous effectuons une comparaison principale de RLHF vs RL à partir de la rétroaction AI (RLAIF) - une technique où les préférences sont étiquetées par un LLM standard au lieu des humains, et nous constatons qu'ils entraînent des améliorations similaires. Sur la tâche de résumé, les évaluateurs humains préfèrent les générations à la fois de RLAIF et RLHF à un modèle de référence à réglage fin supervisé dans environ 70% des cas. De plus, lorsqu'on leur a demandé d'évaluer les résumés RLAIF contre RLHF, les humains préfèrent les deux à des taux égaux. Ces résultats suggèrent que RLAIF peut produire des performances au niveau de l'homme, offrant une solution potentielle aux limitations d'évolutivité de RLHF.
2309.07124 Pluie: Vos modèles de langue peuvent s'aligner sans Finetuning
Abstrait
Les modèles de grands langues (LLM) démontrent souvent des incohérences avec les préférences humaines. Des recherches antérieures ont recueilli des données de préférence humaine, puis ont aligné les modèles pré-formés en utilisant l'apprentissage du renforcement ou le réglage de l'instruction, la soi-disant étape de la fintuning. En revanche, l'alignement des LLM Frozen sans données supplémentaires est plus attrayant. Ce travail explore le potentiel de ce dernier cadre. Nous découvrons qu'en intégrant les mécanismes d'auto-évaluation et de rembobinage, les LLM non alignées peuvent produire directement des réponses cohérentes avec les préférences humaines via l'auto-boosting. Nous introduisons une nouvelle méthode d'inférence, inférieure auto-régressive rembobinable (pluie), qui permet aux LLM pré-formées d'évaluer leur propre génération et d'utiliser les résultats de l'évaluation pour guider le rembobinage arrière et la génération avant pour la sécurité de l'IA. Notamment, la pluie fonctionne sans avoir besoin de données supplémentaires pour l'alignement du modèle et s'abstiens de toute formation, calcul de gradient ou mises à jour de paramètres; Au cours de la phase d'auto-évaluation, le modèle reçoit des conseils sur les préférences humaines pour s'aligner via une invite de modèle fixe, éliminant la nécessité de modifier l'invite initiale. Les résultats expérimentaux évalués par le GPT-4 et les humains démontrent l'efficacité de la pluie: sur l'ensemble de données HH, la pluie améliore le taux d'agrément du LLAMA 30B sur l'inférence de la vanille de 82% à 97%, tout en conservant le taux de l'aide. Sous la principale attaque contradictoire LLM-Attacks sur Vicuna 33b, Rain établit une nouvelle référence de défense en réduisant le taux de réussite de l'attaque de 94% à 19%.
2308.06385 Zyn: modèles de récompense zéro-shot avec oui-non questions
Abstrait
Dans ce travail, nous abordons le problème de la réalisation des générations de texte d'un LLM vers un comportement souhaité, alignant le texte généré avec les préférences de l'opérateur humain. Nous proposons d'utiliser un autre modèle linguistique en tant que critique de critique, de récompense d'une manière zéro-tir grâce à l'invite d'une question oui-non qui représente les préférences de l'utilisateur, sans nécessiter davantage de données étiquetées. Ce modèle de récompense zéro-shot fournit le signal d'apprentissage pour affiner davantage le LLM de base en utilisant l'apprentissage du renforcement, comme dans RLAIF; Pourtant, notre approche est également compatible dans d'autres contextes tels que la recherche sur la diversité de qualité. Des preuves approfondies des capacités du cadre ZYN proposé sont fournies par des expériences dans différents domaines liés à la génération de texte, y compris la détoxification; Optimiser le sentiment des critiques de films, ou tout autre attribut; diriger l'opinion sur un sujet particulier que le modèle peut avoir; et personnaliser des générateurs rapides pour les tâches de texte à l'image.
2307.12950 RLCD: apprentissage du renforcement de la distillation de contraste pour l'alignement du modèle linguistique
Abstrait
Nous proposons l'apprentissage du renforcement de la distillation de contraste (RLCD), une méthode d'alignement des modèles de langage pour suivre les principes du langage naturel sans utiliser la rétroaction humaine. RLCD entraîne un modèle de préférence utilisant des paires de préférences simulées qui contiennent à la fois un exemple de haute qualité et de faible qualité, généré à l'aide d'invites positives et négatives contrastées. Le modèle de préférence est ensuite utilisé pour améliorer un modèle de langue non aligné de base via l'apprentissage du renforcement. Empiriquement, RLCD surpasse le RLAIF (Bai et al., 2022b) et la distillation de contexte (Huang et al., 2022) Bâlines à travers trois tâches d'alignement diverses - la génération de l'absence de l'agitation, la génération de contour de l'histoire - et sur les échelles de modèle 7B et 30B pour la simulation de données de préférence.
2022
- 2212.08073 IA constitutionnelle: insigne de la rétroaction de l'IA
Abstrait
À mesure que les systèmes d'IA deviennent plus capables, nous aimerions demander leur aide pour superviser d'autres AIS. Nous expérimentons des méthodes pour former un assistant AI inoffensif par l'auto-amélioration, sans aucune étiquette humaine identifiant les résultats nuisibles. La seule surveillance humaine est fournie par une liste de règles ou de principes, et nous appelons donc la méthode comme «IA constitutionnelle». Le processus implique à la fois un apprentissage supervisé et une phase d'apprentissage du renforcement. Dans la phase supervisée, nous échantillons à partir d'un modèle initial, puis générons des autocritiques et des révisions, puis Finetune le modèle d'origine sur les réponses révisées. Dans la phase RL, nous échantillons à partir du modèle Finetuned, utilisons un modèle pour évaluer lequel des deux échantillons est meilleur, puis entraîner un modèle de préférence à partir de cet ensemble de données de préférences d'IA. Nous nous entraînons ensuite avec RL en utilisant le modèle de préférence comme signal de récompense, c'est-à-dire que nous utilisons «RL à partir de la rétroaction AI» (RLAIF). En conséquence, nous sommes en mesure de former un assistant d'IA inoffensif mais non évasif qui s'engage dans des questions nuisibles en leur expliquant ses objections. Les méthodes SL et RL peuvent tirer parti du raisonnement de la chaîne de la pensée pour améliorer les performances jugées par l'homme et la transparence de la prise de décision de l'IA. Ces méthodes permettent de contrôler plus précisément le comportement de l'IA et avec beaucoup moins d'étiquettes humaines.
Code
Ici, nous gardons une trace des référentiels et des extraits de code qui sont pertinents pour RLAIF.
- Autocrit un référentiel pour l'apprentissage et la génération de la critique du transformateur
- Zero-shot-récompense-modèles Zyn: modèles de récompense zéro-shot avec oui-non questions
- chaîne d'autocritique Chaîne d'autocritique avec l'IA constitutionnelle, utilisant Langchain
Contribution ❤️
S'il vous plaît, n'hésitez pas à soumettre un PR si vous souhaitez inclure des ressources à cette liste!