Dies ist die primäre Codebasis für das Projekt:
Lawma: Die Befugnis der Spezialisierung für rechtliche Aufgaben. Ricardo Dominguez-remedo und Vedant Nanda und Rediet Abebe sowie Stefan Bechtold und Christoph Engel sowie Jens Frankenreiter sowie Krishna Gummadi und Moritz Hardt und Michael Livermore. 2024
Lawma 8b und Lawma 70b sind Sprachmodelle, die auf 260 Rechtsklassifizierungsaufgaben, die aus den Datenbanken des Obersten Gerichtshofs und des Song Court of Appeals abgeleitet wurden, abgestimmt sind. Die Lawma-Modelle übertreffen GPT-4 bei 95% dieser Rechtsklassifizierungsaufgaben im Durchschnitt um über 17 Genauigkeitspunkte.
Wofür sind die Lawma -Modelle nützlich? Wir empfehlen, die Lawma-Modelle nur für die rechtlichen Klassifizierungsaufgaben zu verwenden, für die sie Modelle fein abgestimmt waren. Das Hauptaufenthalt unseres Papiers ist, dass Spezialisierungsmodelle zu großen Leistungsverbesserungen führen. Daher empfehlen wir den Praktikern dringend, Lawma auf die tatsächlichen Aufgaben, für die die Modelle verwendet werden, weiter zu optimieren. Relativ wenige Beispiele-iie, Dutzende oder Hunderte-können bereits zu großen Leistungssteigerungen führen.
Warum diese Rechtsklassifizierungsaufgaben? Unsere Gründe, Rechtsklassifizierungsaufgaben zu untersuchen, sind sowohl technisch als auch inhaltlich. Aus Sicht des technischen maschinellen Lernens bieten diese Aufgaben hoch nicht triviale Klassifizierungsprobleme, bei denen selbst die besten Modelle viel Raum für Verbesserungen lassen. Aus materieller gesetzlicher Sicht haben effiziente Lösungen für solche Klassifizierungsprobleme reichhaltige und wichtige Anwendungen in der Rechtsforschung. Wir bieten Code zur Bewertung der Leistung von HF -Modellen für diese Klassifizierungsaufgaben.
Um Sprachmodelle für jede der 260 Rechtsaufgaben zu bewerten, finden Sie im Bewertungsordner und insbesondere hf_eval.py. Sie müssen zuerst die Taskdateien von hier herunterladen oder selbst generieren, indem Sie den Anweisungen im Ordner Data_generation folgen. Wir haben eine Reihe von Sprachmodellen bewertet:
| Modell | Alle Aufgaben | Aufgaben des Obersten Gerichtshofs | Berufungsgericht |
|---|---|---|---|
| Lawma 70b | 81.9 | 84.1 | 81,5 |
| Lawma 8b | 80.3 | 82.4 | 79,9 |
| Gpt4 | 62.9 | 59,8 | 63.4 |
| Lama 3 70b Installation | 58,4 | 47.1 | 60.3 |
| MIMTRAL 8X7B INT | 43.2 | 24.4 | 46,4 |
| Lama 3 8b Installation | 42.6 | 32.8 | 44,2 |
| Mehrheitsklassifizierer | 41.7 | 31.5 | 43,5 |
| Mistral 7B Inst | 39.9 | 19.5 | 43.4 |
| Saul 7b Inst | 34.4 | 20.2 | 36.8 |
| Legalbert | 24.6 | 13.6 | 26.4 |
Die Lawma-Modelle übertreffen alle anderen getesteten Modelle und insbesondere GPT-4. Beachten Sie, dass Lawma 70b Lawma 8B im Allgemeinen übertrifft, der Leistungsunterschied jedoch in der Regel eher gering ist. Daher können Praktiker Lawma 8B für ihre deutlich billigere Inferenz und Feinabstimmung mit geringen Kosten für die Modellleistung verwenden.
Hinweis: Die Bewertung von Modellen bei allen 260 Klassifizierungsaufgaben ist vernünftigerweise intensiv. Für die Zwecke des Sprachmodell -Benchmarking können wir jedoch hauptsächlich an der Gesamtleistung interessiert sein. Wir arbeiten derzeit daran, aggregierte Bewertungen weniger ressourcenintensiv zu machen, indem wir nur eine begrenzte Anzahl von Beispielen pro Aufgabe berücksichtigen.
Wir stimmen Lawma mit der Axolotl-Bibliothek gut ab. Weitere Informationen zu den Trainingsskripten und Konfigurationsdateien, mit denen wir Lawma verwendet haben, finden Sie in der ReadMe im Ordner der Feinabstimmung.
Um unseren Datensatz mit rechtlichen Klassifizierungsaufgaben zu optimieren, geben Sie dies einfach in Ihrer Datei config.yml an:
datasets :
- path : ricdomolm/lawma-all-tasks
type : alpacaund dann wie gewohnt mit Axolotl trainieren
accelerate launch -m axolotl.cli.train config.ymlFeinabstimmung Lawma 8b auf 7xH100 GPUs erforderte insgesamt 600 H100 Stunden (3 Epochen), während die Feinabstimmung von Lawma 70B auf 8 H100-Knoten von 8 GPUs jeweils etwa 1600 h 100 Stunden (1 Epoche) erforderlich war. Wir stellen fest, dass weitere Epochen durchschnittliche Aufgabenleistung beeinträchtigen.
Um die Ergebnisse des Papiers zu reproduzieren, machen Sie die folgenden Schritte:
Weitere Dokumentationen finden Sie in den Readme.md -Dateien in den Unterverzeichnissen.
Bitte zitieren Sie:
@misc{dominguezolmedo2024lawmapowerspecializationlegal,
title={Lawma: The Power of Specialization for Legal Tasks},
author={Ricardo Dominguez-Olmedo and Vedant Nanda and Rediet Abebe and Stefan Bechtold and Christoph Engel and Jens Frankenreiter and Krishna Gummadi and Moritz Hardt and Michael Livermore},
year={2024},
eprint={2407.16615},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.16615},
}