Llama3 8B_Emotion_Text_Classification_LoRA Télécharger - Llama3 8B_Emotion_Text_Classification

Llama3 8B_Emotion_Text_Classification_LoRA

Code Source AI

1.0.0

Télécharger

Classification du texte des émotions utilisant LLAMA3-8B et Lora

Introduction

Ce projet explore la classification du texte des émotions à l'aide du modèle LLAMA3-8B, améliorée avec les techniques LORA et Flashattention. Le modèle est optimisé pour identifier six catégories d'émotions: la joie, la tristesse, la colère, la peur, l'amour et la surprise. Le modèle LLAMA3-8B démontre des performances supérieures avec une précision de 0,9262, dépassant d'autres modèles de transformateurs tels que Bert-base, Bert-Large, Roberta-Base et Roberta-Large.

Arrière-plan

Le traitement du langage naturel (PNL) est devenu un domaine de mise au point clé pour l'analyse des sentiments, également connue sous le nom de classification des sentiments ou de détection des sentiments. Cette technologie aide les entreprises à comprendre les émotions et les opinions des consommateurs, améliorant la satisfaction des clients et le développement de produits. La grande quantité de données dans les grandes entreprises rend l'analyse manuelle impraticable, conduisant à l'adoption des algorithmes d'IA et de PNL.

Caractéristiques clés

Modèle : LLAMA3-8B, affiné en utilisant l'apprentissage supervisé.
Techniques : Utilisé LORA pour un réglage efficace des paramètres et une étalage pour un calcul optimisé de l'attention.
Ensemble de données : ensemble de données d'émotion avec six catégories.
Performance : a atteint une précision de 0,9262, dépassant d'autres modèles NLP.

Méthodes

Figure 1: Architecture de Llama3-8b

Modèle llama3-8b

Le modèle LLAMA3-8B, développé par Meta AI, est un modèle de langue large optimisé pour les cas d'utilisation du dialogue. Il contient 8 milliards de paramètres et présente des améliorations significatives par rapport aux modèles précédents. La série LLAMA3 intègre un processus de formation multi-phases qui comprend une pré-entraînement, un réglage fin supervisé et un raffinement itératif en utilisant l'apprentissage du renforcement avec la rétroaction humaine (RLHF). Ce processus garantit que le modèle s'aligne étroitement avec les préférences humaines pour l'aide et la sécurité.

Les progrès architecturaux de LLAMA3 incluent la mise en œuvre de l'attention groupée (GQA). GQA Clusters Requêtes pour partager les paires de valeurs clés, réduisant ainsi la mémoire et les coûts de calcul tout en maintenant des performances élevées. Cette méthode améliore considérablement l'efficacité des calculs d'attention, en particulier dans les modèles à grande échelle.

LLAMA3-8B est pré-entraîné sur un ensemble de données diversifié comprenant plus de 15 billions de jetons provenant de données accessibles au public, avec le coupure des connaissances du modèle fixé en mars 2023. La phase de réglage fin a utilisé une compréhension robuste des deux tâches linguistiques.

Tableau 1: Détails du modèle LLAMA3-8B

Fonctionnalité	Spécification
Données de formation	Données accessibles au public
Paramètres	8b
Durée du contexte	8K
GQA	Oui
Dénombrement de jetons	15T +
Coupure de connaissances	Mars 2023

Instruction ajusté

Le réglage fin des instructions améliore les capacités d'apprentissage zéro du modèle à travers diverses tâches. Cette technique consiste à former le modèle sur les ensembles de données spécialement conçus pour améliorer sa capacité à suivre les instructions. Par exemple, des modèles formés sur des ensembles de données comme Alpaca-7B peuvent présenter des comportements similaires à Text-Davinci-003 d'OpenAI pour comprendre et exécuter des instructions.

Méthode Lora pour la formation

LORA (adaptation de faible rang) est une technique utilisée pour intégrer les matrices de décomposition de rang entraînable dans chaque couche de l'architecture du transformateur. Cette méthode réduit considérablement le nombre de paramètres formables lors de l'adaptation de modèles de langage à grande envergure à des tâches ou des domaines spécifiques. Contrairement au réglage fin complet, Lora maintient les poids du modèle pré-entraînés inchangés, mettant à jour uniquement les matrices de bas rang pendant le processus d'adaptation. Cette approche améliore l'efficacité de la formation, réduit les besoins de stockage et n'augmente pas la latence d'inférence par rapport aux modèles entièrement affinés.

Figure 2: Méthode de formation LORA

Flash Attention v2

FlashAntiser V2 est une technique d'optimisation conçue pour accélérer le mécanisme d'attention dans les modèles de transformateurs. Il se concentre sur l'amélioration de l'efficacité de calcul et la réduction de l'utilisation de la mémoire pendant la formation. Flashattention y parvient en décomposant le calcul de l'attention en morceaux plus petits et plus gérables, améliorant ainsi l'utilisation du cache et réduisant l'accès à la mémoire. De plus, il utilise des opérations de matrice clairsemées pour tirer parti de la rareté des mécanismes d'attention, ce qui aide à contourner les calculs inutiles. Les opérations pipelinées permettent l'exécution parallèle de différentes étapes de calcul, minimisant davantage le temps de traitement.

Expérimentation

Figure 3: Distribution d'étiquette de texte émotion

Analyse des données

L'ensemble de données utilisé pour la formation du modèle se compose de texte étiqueté avec six émotions: joie, tristesse, colère, peur, amour et surprise. La distribution de l'ensemble de données est relativement équilibrée, la «joie» étant l'émotion la plus courante et la «surprise» le moins. Cette distribution équilibrée fournit une base solide pour le modèle pour classer avec précision les émotions sans biais vers une catégorie particulière.

Paramètres d'expérience

Les hyperparamètres du modèle LLAMA3-8B sont définis comme suit:

Tableau 2: Paramètres d'expérience pour LLAMA3-8B

Paramètre	Paramètre
Optimiseur	Adam
Taux d'apprentissage	5E-5
Taille de lot	5
Époques	3
Rang lora	8
Étapes d'accumulation de gradient	4
Longueur maximale	512

Le modèle est formé à l'aide de l'ADAM Optimizer, connu pour ses capacités de taux d'apprentissage adaptatif. Un calendrier de taux d'apprentissage en cosinus est utilisé pour ajuster le taux d'apprentissage pendant la formation. La taille du lot est définie sur 5, avec une accumulation de gradient sur 4 étapes pour optimiser l'utilisation de la mémoire. Le modèle est formé pour 3 époques, avec le format de précision FP16 utilisé pour enregistrer la mémoire GPU tout en maintenant les performances. Le rang LORA de 8 indique l'ordre de la matrice de bas rang utilisée dans le processus d'adaptation.

Mesures d'évaluation

La métrique principale utilisée pour évaluer les performances du modèle est la précision. Cette métrique mesure la proportion de prédictions correctes faites par le modèle à partir de toutes les prédictions. La formule de précision est:

dollars

Où:

Tp = vrai positif
FP = faux positif
Fn = faux négatif
Tn = vrai négatif

Analyse des expériences

Les performances du modèle sont comparées à d'autres modèles PNL populaires, tels que Bert-Base, Bert-Garn, Roberta-Base et Roberta-Large. Le modèle LLAMA3-8B atteint la précision la plus élevée de 0,9262, démontrant l'efficacité du réglage fin de l'instruction et le grand ensemble de paramètres du modèle. La performance supérieure de LLAMA3-8B dans cette tâche souligne les avantages des modèles de grandes langues pour atteindre une grande précision à travers des tâches de classification de texte diverses et difficiles.

Tableau 3: Résultats de la précision pour différents modèles

Modèle	Précision
Bascule	0,9063
Bert-grand	0,9086
Base de Roberta	0,9125
Plus grand	0,9189
Llama3-8b	0,9262

Conclusion

Ce projet démontre le potentiel de modèles de grandes langues, tels que LLAMA3-8B, dans des tâches spécifiques au domaine comme la classification du texte des émotions. Les performances du modèle, stimulées par des techniques spécialisées comme LORA et Flashattention, soulignent l'efficacité des grands modèles pour atteindre une grande précision dans les applications PNL.