Este repositorio contiene el trabajo de laboratorio para el curso de Coursera en "AI generativo con modelos de idiomas grandes".
Realice el resumen de diálogo utilizando IA generativa. Experimente con el aprendizaje en contexto, como el disparo cero, un disparo y pocas inferencias de disparo y ajuste los parámetros de configuración asociados con inferencia para influir en los resultados.
Realice instrucciones ajustadas en un LLM existente desde la cara abrazada, el modelo Flan-T5. Explore los métodos de ajuste fino completo y PEFT (ajuste fino eficiente de los parámetros) como Lora (adaptación de bajo rango) y evaluación utilizando métricas Rouge.
Sintonice aún más, un modelo FLAN-T5 utilizando el aprendizaje de refuerzo con un modelo de recompensa como el modelo de recompensa de discurso de odio de Meta AI para generar resúmenes menos tóxicos. Use la optimización de políticas proximales (PPO) para ajustar y desintoxicar el modelo.