นี่คือฐานรหัสหลักสำหรับโครงการ:
Lawma: พลังของการกำหนดเฉพาะสำหรับงานทางกฎหมาย Ricardo Dominguez-Olmedo และ Vedant Nanda และ Rediet Abebe และ Stefan Bechtold และ Christoph Engel และ Jens Frankenreiter และ Krishna Gummadi และ Moritz Hardt และ Michael Livermore 2024
Lawma 8B และ Lawma 70b เป็นรูปแบบภาษาที่ปรับแต่งใน 260 งานการจำแนกตามกฎหมายที่ได้มาจากฐานข้อมูลศาลฎีกาและฐานข้อมูลศาลอุทธรณ์ รูปแบบ Lawma มีประสิทธิภาพสูงกว่า GPT-4 ใน 95% ของงานการจำแนกตามกฎหมายเหล่านี้โดยเฉลี่ยมากกว่า 17 คะแนนความแม่นยำ
รูปแบบ Lawma มีประโยชน์สำหรับอะไร? เราขอแนะนำให้ใช้แบบจำลอง Lawma เฉพาะสำหรับงานการจำแนกตามกฎหมายที่พวกเขาได้รับการปรับแต่งอย่างละเอียด การซื้อกระดาษหลักของเราคือโมเดลที่เชี่ยวชาญนำไปสู่การปรับปรุงประสิทธิภาพจำนวนมาก ดังนั้นเราขอแนะนำให้ผู้ปฏิบัติงานปรับแต่ง Lawma เพิ่มเติมเกี่ยวกับงานจริงที่โมเดลจะถูกใช้ ตัวอย่างที่ค่อนข้างน้อย-ฉันหลายสิบหรือหลายร้อย-อาจนำไปสู่การได้รับผลประโยชน์จำนวนมาก
เหตุใดจึงต้องทำงานการจำแนกตามกฎหมายเหล่านี้? เหตุผลของเราในการศึกษางานการจำแนกตามกฎหมายมีทั้งทางเทคนิคและสำคัญ จากมุมมองการเรียนรู้ของเครื่องเทคนิคงานเหล่านี้ให้ปัญหาการจำแนกประเภทที่ไม่สำคัญสูงซึ่งแม้แต่รุ่นที่ดีที่สุดก็ยังมีพื้นที่มากสำหรับการปรับปรุง จากมุมมองทางกฎหมายที่สำคัญการแก้ปัญหาที่มีประสิทธิภาพไปจนถึงปัญหาการจำแนกประเภทดังกล่าวมีแอพพลิเคชั่นที่หลากหลายและมีความสำคัญในการวิจัยทางกฎหมาย เราให้รหัสเพื่อประเมินประสิทธิภาพของโมเดล HF ในงานการจำแนกประเภทเหล่านี้
ในการประเมินแบบจำลองภาษาในแต่ละงานที่ถูกกฎหมาย 260 รายการโปรดดูที่โฟลเดอร์การประเมินผลและโดยเฉพาะอย่างยิ่ง hf_eval.py ก่อนอื่นคุณต้องดาวน์โหลดไฟล์งานจากที่นี่หรือสร้างตัวเองโดยทำตามคำแนะนำในโฟลเดอร์ Data_Generation เราประเมินแบบจำลองภาษาที่หลากหลาย:
| แบบอย่าง | งานทั้งหมด | งานศาลฎีกา | งานศาลอุทธรณ์ |
|---|---|---|---|
| Lawma 70b | 81.9 | 84.1 | 81.5 |
| Lawma 8b | 80.3 | 82.4 | 79.9 |
| GPT4 | 62.9 | 59.8 | 63.4 |
| Llama 3 70b Inst | 58.4 | 47.1 | 60.3 |
| Mixtral 8x7b Inst | 43.2 | 24.4 | 46.4 |
| llama 3 8b Inst | 42.6 | 32.8 | 44.2 |
| ตัวจําแนกส่วนใหญ่ | 41.7 | 31.5 | 43.5 |
| mistral 7b inst | 39.9 | 19.5 | 43.4 |
| SAUL 7B Inst | 34.4 | 20.2 | 36.8 |
| legalbert | 24.6 | 13.6 | 26.4 |
รูปแบบ Lawma มีประสิทธิภาพสูงกว่ารุ่นอื่น ๆ ทั้งหมดที่ทดสอบและโดยเฉพาะอย่างยิ่ง GPT-4 โปรดทราบว่าในขณะที่ Lawma 70b โดยทั่วไปมีประสิทธิภาพสูงกว่า Lawma 8b ความแตกต่างของประสิทธิภาพมักจะค่อนข้างเล็ก ดังนั้นผู้ปฏิบัติงานอาจต้องการใช้ Lawma 8B สำหรับการอนุมานที่ถูกกว่าและการปรับแต่งอย่างมีนัยสำคัญโดยมีค่าใช้จ่ายเพียงเล็กน้อยในแง่ของประสิทธิภาพของโมเดล
หมายเหตุ: การประเมินแบบจำลองในงานการจำแนกประเภท 260 ทั้งหมดนั้นมีการคำนวณอย่างเข้มงวดอย่างสมเหตุสมผล อย่างไรก็ตามสำหรับวัตถุประสงค์ของการเปรียบเทียบแบบจำลองภาษาเราอาจสนใจประสิทธิภาพรวมเป็นส่วนใหญ่ ขณะนี้เรากำลังทำงานเพื่อทำการประเมินผลรวมทรัพยากรที่เข้มข้นน้อยลงโดยพิจารณาเพียงตัวอย่างที่ จำกัด ต่องานเท่านั้น
เราปรับ Lawma โดยใช้ไลบรารี Axolotl โปรดดู readme ในโฟลเดอร์ปรับแต่งสำหรับสคริปต์การฝึกอบรมและไฟล์การกำหนดค่าที่เราใช้ในการปรับ lawma
ในการปรับแต่งชุดข้อมูลการจำแนกประเภททางกฎหมายของเราเพียงแค่ระบุดังนั้นในไฟล์ config.yml ของคุณ:
datasets :
- path : ricdomolm/lawma-all-tasks
type : alpacaจากนั้นฝึกอบรมโดยใช้ Axolotl ตามปกติ
accelerate launch -m axolotl.cli.train config.ymlการปรับแต่ง Lawma 8B บน 7xH100 GPU ต้องใช้เวลาทั้งหมด 600 H100 ชั่วโมง (3 Epochs) ในขณะที่ Lawma การปรับจูน 70b บน 8 H100 โหนด 8 GPU แต่ละอันต้องใช้เวลาประมาณ 1600 H100 ชั่วโมง (1 Epoch) เราพบว่ายุคเพิ่มเติมส่งผลกระทบต่อประสิทธิภาพงานเฉลี่ย
ในการทำซ้ำผลลัพธ์ของกระดาษให้ทำตามขั้นตอนต่อไปนี้:
ดูไฟล์ readme.md ในไดเรกทอรีย่อยสำหรับเอกสารเพิ่มเติม
กรุณาอ้างอิงเป็น:
@misc{dominguezolmedo2024lawmapowerspecializationlegal,
title={Lawma: The Power of Specialization for Legal Tasks},
author={Ricardo Dominguez-Olmedo and Vedant Nanda and Rediet Abebe and Stefan Bechtold and Christoph Engel and Jens Frankenreiter and Krishna Gummadi and Moritz Hardt and Michael Livermore},
year={2024},
eprint={2407.16615},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.16615},
}