Ce référentiel contient le cours de travail de laboratoire pour Coursera sur "Generative AI avec des modèles de langues importants".
Effectuez un résumé de la boîte de dialogue à l'aide d'une AI générative. Expérimentez avec un apprentissage en contexte tel que Zero Shot, One Shot et quelques inférences de tir et régiment les paramètres de configuration associés à l'inférence pour influencer les résultats.
Effectuer des instructions ajustées fins sur un LLM existant à partir du modèle Flan-T5 Flan-T5 existant. Explorez à la fois un réglage complet ainsi que des méthodes PEFT (paramètres de réglage fin efficace) telles que la LORA (adaptation à faible rang) et l'évaluation à l'aide de mesures rouges.
Affiner davantage un modèle Flan-T5 utilisant l'apprentissage du renforcement avec un modèle de récompense tel que le modèle de récompense de la parole de haine de Meta AI pour générer des résumés moins toxiques. Utilisez l'optimisation de la politique proximale (PPO) pour affiner et détoxifier le modèle.