Ini adalah basis kode utama untuk proyek:
Lawma: Kekuatan spesifikasi untuk tugas -tugas hukum. Ricardo Dominguez-Olmedo dan Vedant Nanda dan Rediet Abebe dan Stefan Bechtold dan Christoph Engel dan Jens Frankenreiter dan Krishna Gummadi dan Moritz Hardt dan Michael Livermore. 2024
Lawma 8b dan Lawma 70b adalah model bahasa yang disesuaikan dengan 260 tugas klasifikasi hukum yang berasal dari database Mahkamah Agung dan Pengadilan Banding Songer. Model Lawma mengungguli GPT-4 pada 95% dari tugas klasifikasi hukum ini, rata-rata dengan lebih dari 17 poin akurasi.
Untuk apa model Lawma berguna? Kami merekomendasikan menggunakan model Lawma hanya untuk tugas klasifikasi hukum yang mereka modelkan disesuaikan. Pengambilan utama dari makalah kami adalah bahwa model yang mengkhususkan diri mengarah pada peningkatan besar dalam kinerja. Oleh karena itu, kami sangat merekomendasikan praktisi untuk lebih menyempurnakan Lawma pada tugas-tugas aktual yang akan digunakan oleh model. Relatif sedikit contoh --e, lusinan atau ratusan-mungkin sudah menyebabkan keuntungan besar dalam kinerja.
Mengapa tugas klasifikasi hukum ini? Alasan kami untuk mempelajari tugas klasifikasi hukum bersifat teknis dan substantif. Dari perspektif pembelajaran mesin teknis, tugas-tugas ini memberikan masalah klasifikasi yang sangat tidak sepele di mana bahkan model terbaik menyisakan banyak ruang untuk perbaikan. Dari perspektif hukum substantif, solusi yang efisien untuk masalah klasifikasi seperti itu memiliki aplikasi yang kaya dan penting dalam penelitian hukum. Kami menyediakan kode untuk mengevaluasi kinerja model HF pada tugas klasifikasi ini.
Untuk mengevaluasi model bahasa pada masing -masing dari 260 tugas hukum, silakan merujuk ke folder evaluasi, dan khususnya hf_eval.py. Anda harus terlebih dahulu mengunduh file tugas dari sini, atau menghasilkannya sendiri dengan mengikuti instruksi di folder Data_Generation. Kami mengevaluasi berbagai model bahasa:
| Model | Semua tugas | Tugas Mahkamah Agung | Tugas Pengadilan Banding |
|---|---|---|---|
| Lawma 70b | 81.9 | 84.1 | 81.5 |
| Lawma 8b | 80.3 | 82.4 | 79.9 |
| GPT4 | 62.9 | 59.8 | 63.4 |
| Llama 3 70b inst | 58.4 | 47.1 | 60.3 |
| Mixtral 8x7b Inst | 43.2 | 24.4 | 46.4 |
| Llama 3 8b inst | 42.6 | 32.8 | 44.2 |
| Klasifikasi Mayoritas | 41.7 | 31.5 | 43.5 |
| Mistral 7B Inst | 39.9 | 19.5 | 43.4 |
| Saul 7b Inst | 34.4 | 20.2 | 36.8 |
| Legalbert | 24.6 | 13.6 | 26.4 |
Model Lawma secara substansial mengungguli semua model lain yang diuji, dan khususnya GPT-4. Perhatikan bahwa, sementara Lawma 70b umumnya mengungguli Lawma 8b, perbedaan kinerja biasanya agak kecil. Oleh karena itu, praktisi mungkin lebih suka menggunakan Lawma 8b untuk inferensi dan penyempurnaan yang lebih murah secara signifikan, dengan sedikit biaya dalam hal kinerja model.
Catatan: Mengevaluasi model pada semua 260 tugas klasifikasi cukup intensif. Namun, untuk keperluan pembandingan model bahasa kami mungkin sebagian besar tertarik pada kinerja agregat. Kami saat ini sedang berupaya membuat evaluasi agregat menjadi lebih intensif sumber daya dengan hanya mempertimbangkan sejumlah besar contoh per tugas.
Kami menyempurnakan Lawma menggunakan Perpustakaan Axolotl. Silakan merujuk ke ReadMe di folder fine-tune untuk skrip pelatihan dan file konfigurasi yang kami gunakan untuk menyempurnakan Lawma.
Untuk menyempurnakan dataset tugas klasifikasi hukum kami, cukup tunjukkan demikian di file config.yml Anda:
datasets :
- path : ricdomolm/lawma-all-tasks
type : alpacadan kemudian berlatih menggunakan Axolotl seperti biasa
accelerate launch -m axolotl.cli.train config.ymlFine-tuning Lawma 8b pada 7xH100 GPU membutuhkan total 600 H100 jam (3 zaman), sedangkan fine-tuning Lawma 70B pada 8 H100 node dari 8 GPU masing-masing diperlukan sekitar 1600 jam H100 (1 zaman). Kami menemukan bahwa zaman lebih lanjut melukai kinerja tugas rata -rata.
Untuk mereproduksi hasil kertas, ambil langkah -langkah berikut:
Lihat file readme.md di subdirektori untuk dokumentasi tambahan.
Harap kutip sebagai:
@misc{dominguezolmedo2024lawmapowerspecializationlegal,
title={Lawma: The Power of Specialization for Legal Tasks},
author={Ricardo Dominguez-Olmedo and Vedant Nanda and Rediet Abebe and Stefan Bechtold and Christoph Engel and Jens Frankenreiter and Krishna Gummadi and Moritz Hardt and Michael Livermore},
year={2024},
eprint={2407.16615},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.16615},
}