Réglage fin et inférence avec le modèle LLAMA-3.1-8B
Ce projet montre comment affiner le modèle LLAMA-3.1-8B à l'aide d'adaptateurs LORA, appliquer des modèles de chat et enregistrer le modèle pour l'inférence. Le modèle est formé sur les données locales, optimisé pour une formation économe en paramètres et déployé dans le Hub Face Hub.
Aperçu
- Modèle : LLAMA-3.1-8B avec quantification 4 bits pour une utilisation efficace de la mémoire.
- Techniques : ajustement fin à l'aide d'adaptateurs LORA (adaptation de faible rang), modèles de pointing de vérification du gradient et de modèles de chat.
- Données : fichier CSV local personnalisé utilisé pour la formation.
- Objectif : former et déployer un modèle de chatbot capable de gérer la saisie des utilisateurs dans les formats basés sur la conversation.
Caractéristiques
- Adaptateurs LORA : réglage fin économe en paramètres.
- Quantification : utilisation efficace de la mémoire avec précision 4 bits.
- Modèles de chat : flux de conversation structuré avec la tokenisation.
- Déploiement du modèle : enregistrer et pousser les modèles à étreindre le Hub Face dans différents formats de quantification.
Installation
Pour exécuter ce projet, vous devrez installer les packages requis. Vous pouvez configurer cela dans Google Colab ou dans votre environnement local:
pip install torch transformers datasets pandas unsloth trl