impresionante-rlaif ☄️
Una lista curada y actualizada de artículos y repositorios relevantes sobre el aprendizaje de refuerzo de la retroalimentación de IA (RLAIF) . En particular, en esta lista realizamos un seguimiento de los siguientes motivos:
- Usando RL para optimizar LLM sin humanos , es decir, con una crítica de LM como modelo de recompensa.
- Uso de LLM para generar retroalimentación, en un bucle de autocrítica .
Algunos de los recursos enumerados también podrían considerarse como parte de RLHF: la frontera es borrosa. Ya hay listas increíbles de RLHF, por lo tanto, aquí nos centramos en los dos puntos anteriores.
Artículos
Los artículos se clasifican cronológicamente.
2024
- 2401.10020 Modelos de lenguaje auto-realizado
Abstracto
Postamos que para lograr agentes sobrehumanos, los modelos futuros requieren comentarios sobrehumanos para proporcionar una señal de capacitación adecuada. Los enfoques actuales comúnmente entrenan modelos de recompensas de preferencias humanas, que luego pueden ser cuello de botella por nivel de rendimiento humano, y en segundo lugar, estos modelos de recompensa congelados separados no pueden aprender a mejorar durante el entrenamiento de LLM. En este trabajo, estudiamos modelos lingüísticos de autocromotorización, donde el modelo de lenguaje en sí se usa a través de LLM-as-a-Judge, lo que solicita a proporcionar sus propias recompensas durante la capacitación. Mostramos que durante el entrenamiento iterativo de DPO que no solo mejora la capacidad de la instrucción, sino también la capacidad de proporcionar recompensas de alta calidad a sí misma. Ajunte de Llama 2 70B sobre tres iteraciones de nuestro enfoque produce un modelo que supera a muchos sistemas existentes en la tabla de clasificación Alpacaeval 2.0, incluidas Claude 2, Gemini Pro y GPT-4 0613. Si bien solo un estudio preliminar, este trabajo abre la puerta a la posibilidad de modelos que pueden mejorar continuamente en ambos ejes.
2023
2309.00267 RLAIF: Escala de refuerzo de refuerzo de la retroalimentación humana con comentarios de IA
Abstracto
El aprendizaje de refuerzo de la retroalimentación humana (RLHF) es efectivo para alinear modelos de idiomas grandes (LLM) con las preferencias humanas, pero recolectar etiquetas de preferencia humana de alta calidad es un cuello de botella clave. Llevamos a cabo una comparación cara a cara de RLHF vs. RL de la retroalimentación de AI (RLAIF): una técnica donde las preferencias están etiquetadas por un LLM estándar en lugar de humanos, y encontramos que dan como resultado mejoras similares. En la tarea de resumen, los evaluadores humanos prefieren generaciones de RLAIF y RLHF sobre un modelo de basura supervisado supervisado en ~ 70% de los casos. Además, cuando se le pide que califiquen los resúmenes de RLAIF frente a RLHF, los humanos prefieren ambos a tasas iguales. Estos resultados sugieren que RLAIF puede producir un rendimiento a nivel humano, ofreciendo una solución potencial a las limitaciones de escalabilidad de RLHF.
2309.07124 lluvia: sus modelos de idiomas pueden alinearse sin ficlar sintonizar
Abstracto
Los modelos de idiomas grandes (LLM) a menudo demuestran inconsistencias con las preferencias humanas. Investigaciones anteriores recopilaron datos de preferencia humana y luego alinearon los modelos previamente capacitados utilizando el aprendizaje de refuerzo o el ajuste de instrucciones, el llamado paso de sintonización. Por el contrario, la alineación de LLM congelados sin datos adicionales es más atractivo. Este trabajo explora el potencial de la última configuración. Descubrimos que al integrar la autoevaluación y el rebobinado de los mecanismos, los LLM no alineados pueden producir directamente respuestas consistentes con las preferencias humanas a través del autoproteo. Introducimos un método de inferencia novedoso, una inferencia auto-regresiva recolectable (lluvia), que permite que los LLM previos al entrenamiento evalúen su propia generación y usen los resultados de la evaluación para guiar el rebobinado hacia atrás y la generación hacia adelante para la seguridad de la IA. En particular, Rain opera sin la necesidad de datos adicionales para la alineación del modelo y se abstiene de cualquier capacitación, cálculo de gradiente o actualizaciones de parámetros; Durante la fase de autoevaluación, el modelo recibe orientación sobre con qué preferencia humana alinearse a través de un mensaje de plantilla fija, eliminando la necesidad de modificar el aviso inicial. Los resultados experimentales evaluados por GPT-4 y los humanos demuestran la efectividad de la lluvia: en el conjunto de datos HH, la lluvia mejora la tasa de inofensivos del LLAMA 30B sobre la inferencia de vainilla del 82% al 97%, al tiempo que mantiene la tasa de ayuda. Bajo los principales ataques de ataque adversario en Vicuna 33b, Rain establece una nueva línea de base de defensa al reducir la tasa de éxito del ataque del 94% al 19%.
2308.06385 Zyn: modelos de recompensa de disparo cero con preguntas de sí-no
Abstracto
En este trabajo, abordamos el problema de dirigir las generaciones de texto de una LLM hacia un comportamiento deseado, alineando el texto generado con las preferencias del operador humano. Proponemos usar otro modelo de lenguaje como un modelo crítico de recompensa de una manera cero, gracias a la solicitud de una pregunta sí-no que representa las preferencias del usuario, sin requerir datos etiquetados adicionales. Este modelo de recompensa de disparo cero proporciona la señal de aprendizaje para ajustar aún más el LLM base utilizando el aprendizaje de refuerzo, como en RLAIF; Sin embargo, nuestro enfoque también es compatible en otros contextos, como la búsqueda de diversidad de calidad. La evidencia extensa de las capacidades del marco Zyn propuesto se proporciona a través de experimentos en diferentes dominios relacionados con la generación de texto, incluida la desintoxicación; optimizar el sentimiento de las reseñas de películas, o cualquier otro atributo; Dirigiendo la opinión sobre un tema en particular que puede tener el modelo; y personalizar generadores de inmediato para tareas de texto a imagen.
2307.12950 RLCD: Aprendizaje de refuerzo de la destilación de contraste para la alineación del modelo de idioma
Abstracto
Proponemos el aprendizaje de refuerzo de la destilación de contraste (RLCD), un método para alinear los modelos lingüísticos para seguir los principios del lenguaje natural sin utilizar la retroalimentación humana. RLCD entrena un modelo de preferencia utilizando pares de preferencias simuladas que contienen un ejemplo de alta calidad y de baja calidad, generado utilizando indicaciones positivas y negativas contrastantes. El modelo de preferencia se usa para mejorar un modelo de lenguaje no alquilado a través del aprendizaje de refuerzo. Empíricamente, RLCD supera a RLAIF (Bai et al., 2022b) y la destilación de contexto (Huang et al., 2022) Basas en tres tareas de alineación diversas: inquietud, ayuda y generación de esquinas de la historia, y en escalas modelo de 7B y 30B para la simulación de datos previos a la preferencia.
2022
- 2212.08073 AI constitucional: inofensiva de la retroalimentación de la IA
Abstracto
A medida que los sistemas de IA se vuelven más capaces, nos gustaría solicitar su ayuda para supervisar a otros AIS. Experimentamos con métodos para capacitar a un asistente de IA inofensivo a través de la superación personal, sin ninguna etiqueta humana que identifique resultados dañinos. La única supervisión humana se proporciona a través de una lista de reglas o principios, por lo que nos referimos al método como 'AI constitucional'. El proceso implica tanto un aprendizaje supervisado como una fase de aprendizaje de refuerzo. En la fase supervisada, tomamos muestras de un modelo inicial, luego generamos autorritiques y revisiones, y luego finetone el modelo original en respuestas revisadas. En la fase RL, muestreamos del modelo Finetuned, usamos un modelo para evaluar cuál de las dos muestras es mejor y luego capacitamos un modelo de preferencia de este conjunto de datos de preferencias de IA. Luego entrenaremos con RL usando el modelo de preferencia como señal de recompensa, es decir, usamos 'RL de AI Feedback' (RLAIF). Como resultado, podemos capacitar a un asistente de IA inofensivo pero no evasivo que se involucra con consultas dañinas al explicarles sus objeciones. Tanto los métodos SL como RL pueden aprovechar el razonamiento de estilo de la cadena de pensamiento para mejorar el rendimiento y la transparencia de la toma de decisiones de AI. Estos métodos permiten controlar el comportamiento de la IA con más precisión y con muchas menos etiquetas humanas.
Código
Aquí realizamos un seguimiento de los repositorios y fragmentos de código que son relevantes para RLAIF.
- Autocrito Un repositorio para el aprendizaje y la generación de la crítica de transformadores
- Zyn: modelos de recompensa cero-shot-reward: modelos de recompensa de disparo cero con preguntas de sí-no
- Cadena autocrítica Cadena autocrítica con IA constitucional, utilizando Langchain
Contribuyendo ❤️
¡Por favor, no dude en enviar un PR si desea incluir recursos en esta lista!