Ceci est la base de code principale du projet:
Lawma: le pouvoir de la spécification des tâches juridiques. Ricardo Dominguez-Olmedo et Vedant Nanda et Rediet Abebe et Stefan Bechtold et Christoph Engel et Jens Frankenreiter et Krishna Gummadi et Moritz Hardt et Michael Livermore. 2024
Lawma 8b et Lawma 70b sont des modèles linguistiques affinés sur 260 tâches de classification juridique dérivées des bases de données de la Cour suprême de la Cour suprême et de la Cour d'appel. Les modèles Lawma surpassent le GPT-4 sur 95% de ces tâches de classification juridique, en moyenne de plus de 17 points de précision.
À quoi servent les modèles Lawma? Nous vous recommandons d'utiliser les modèles Lawma uniquement pour les tâches de classification juridique sur lesquelles les modèles ont été affinés. La principale prise de notre article est que des modèles spécialisés conduisent à une amélioration importante des performances. Par conséquent, nous recommandons fortement aux praticiens de s'adapter davantage sur les tâches réelles pour lesquelles les modèles seront utilisés. Relativement peu d'exemples --ie, des dizaines ou des centaines - peuvent déjà conduire à de gros gains de performance.
Pourquoi ces tâches de classification légale? Nos raisons d'étudier les tâches de classification légale sont à la fois techniques et substantielles. Du point de vue technique de l'apprentissage automatique, ces tâches fournissent des problèmes de classification hautement non triviaux où même les meilleurs modèles laissent beaucoup de place à l'amélioration. D'un point de vue juridique substantiel, des solutions efficaces à ces problèmes de classification ont des applications riches et importantes dans la recherche juridique. Nous fournissons du code pour évaluer les performances des modèles HF sur ces tâches de classification.
Pour évaluer les modèles de langue sur chacune des 260 tâches juridiques, veuillez vous référer au dossier d'évaluation, et en particulier hf_eval.py. Vous devez d'abord télécharger les fichiers de tâche à partir d'ici, ou les générer vous-même en suivant les instructions dans le dossier Data_generation. Nous avons évalué une gamme de modèles de langue:
| Modèle | Toutes les tâches | Tâches de la Cour suprême | Tâches de la Cour d'appel |
|---|---|---|---|
| Lawma 70b | 81.9 | 84.1 | 81.5 |
| Lawma 8b | 80.3 | 82.4 | 79.9 |
| Gpt4 | 62.9 | 59.8 | 63.4 |
| Lama 3 70b Inst | 58.4 | 47.1 | 60.3 |
| Mixtral 8x7b inst | 43.2 | 24.4 | 46.4 |
| Lama 3 8b Inst | 42.6 | 32.8 | 44.2 |
| Classificateur majoritaire | 41.7 | 31.5 | 43.5 |
| Mistral 7b Inst | 39.9 | 19.5 | 43.4 |
| Saul 7b Inst | 34.4 | 20.2 | 36.8 |
| Legalbert | 24.6 | 13.6 | 26.4 |
Les modèles Lawma surpassent considérablement tous les autres modèles testés, et en particulier GPT-4. Notez que, bien que Lawma 70b surpasse généralement Lawma 8b, la différence de performance est généralement plutôt petite. Par conséquent, les praticiens peuvent préférer utiliser Lawma 8b pour son inférence beaucoup moins chère et son réglage fin, avec peu de coût en termes de performance du modèle.
Remarque: L'évaluation des modèles sur les 260 tâches de classification est raisonnablement intensive en calcul. Cependant, aux fins de l'analyse comparative du modèle de langue, nous pouvons être principalement intéressés par les performances agrégées. Nous travaillons actuellement sur la réalisation d'évaluations agrégées moins de ressources en considérant uniquement un nombre limité d'exemples par tâche.
Nous affinons Lawma en utilisant la bibliothèque axolotl. Veuillez vous référer à la lecture dans le dossier Fine-Tune pour les scripts de formation et les fichiers de configuration que nous avons utilisés pour affiner Lawma.
Pour affiner notre ensemble de données de tâches de classification légale, indiquez simplement dans votre fichier config.yml :
datasets :
- path : ricdomolm/lawma-all-tasks
type : alpacapuis entraînez-vous en utilisant l'axolotl comme d'habitude
accelerate launch -m axolotl.cli.train config.ymlLes GPU de 7xh100 à réglage fin sur 7xh100 ont nécessité un total de 600 H100 heures (3 époques), tandis que la loi finale de la loi 70b sur 8 h100 de 8 GPU nécessitait chacune environ 1600 H100 heures (1 époque). Nous constatons que d'autres époques nuisent à la performance moyenne des tâches.
Pour reproduire les résultats du papier, prenez les mesures suivantes:
Voir les fichiers readme.md dans les sous-répertoires pour une documentation supplémentaire.
Veuillez citer comme:
@misc{dominguezolmedo2024lawmapowerspecializationlegal,
title={Lawma: The Power of Specialization for Legal Tasks},
author={Ricardo Dominguez-Olmedo and Vedant Nanda and Rediet Abebe and Stefan Bechtold and Christoph Engel and Jens Frankenreiter and Krishna Gummadi and Moritz Hardt and Michael Livermore},
year={2024},
eprint={2407.16615},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.16615},
}