Fondation-model-Language-model-fm-llm-
Ce référentiel a été commis sous l'action de l'exécution de tâches importantes sur lesquelles des concepts d'IA génératifs modernes sont posés. En particulier, nous nous sommes concentrés sur trois actions de codage des modèles de grande langue qui sont donnés comme suit:
- Nous explorons l'exemple de résumé du dialogue via une AI générative sur l'AWS avec le ML-M5-2XlARGE de type Instace. Cela a été exécuté avec succès en incorporant le résumé d'un dialogue avec le modèle de grande langue (LLM) pré-formé (LLM) Flan-T5 de Hugging Face. De plus, nous avons utilisé une ingénierie rapide qui est un concept important dans les modèles de fondation pour la génération de texte. Nous avons utilisé l'inférence zéro, l'inférence à un coup et les inférences à quelques coups pour conclure l'expérience de résumé du dialogue.
- Dans la deuxième expérience, nous explorons un concept important de réglage fin sur un modèle d'IA génératif et encore une fois, nous avons travaillé sur l'expérience de résumé du dialogue. Il est à nouveau important de noter que cette expérience particulière a été menée sur l'AWS avec le ML-M5-2xlarge de type Instace. Après avoir rappelé l'ensemble de données de notre intérêt, ce qui, dans ce cas, est Dialogsum Hugging Face DataSet, nous chargeons le modèle Flan-T5 pré-formé, puis le tokenize. Après avoir testé le modèle avec l'inférences de tir, nous avons affiné le modèle, puis nous avons évalué la validité du LLM formé par la métrique voyou. Après cela, nous avons effectué un réglage fin, nous avons exécuté des paramètres de réglage fine (PEFT) des paramètres qui est un terme générique qui comprend une adaptation de faible rang (LORA) et l'expérience IC conclue en calculant à nouveau la métrique voyoue pour vérifier la validité de PEFT sur le modèle.
- Enfin, nous étudions comment affiner un modèle Flan-T5 pour générer un contenu moins toxique avec le modèle de récompense de la parole de haine de Meta AI. Après avoir exécuté des commits traditionnels, nous effectuons le réglage fin pour détoxifier le résumé en optimisant la politique d'apprentissage du renforcement par rapport au modèle de récompense en utilisant l'optimisation de la politique proximale (PPO). Encore une fois, n'oubliez pas cela, nous avons conduit tout cela sur l'AWS avec le ML-M5-2xlarge de type Instace.
Tout ce codage a été mis à disposition pendant le cours que j'ai suivi sur https://www.coursera.org/learn/generative-ai-with-llms à Coursera. Le certificat de ma participation active est déjà téléchargé dans ce référentiel.