هذه هي قاعدة التعليمات البرمجية الأساسية للمشروع:
Lawma: سلطة تحديد المهام القانونية. ريكاردو دومينغويز-أولميدو وفيدانت ناندا وليديت أبيب وستيفان بيشولد وكريستوف إنجل وجينس فرانكريتر وكريشنا جومادي وموريتز هارت ومايكل ليفرمور. 2024
Lawma 8B و Lawma 70B هما نماذج لغة تم ضبطها على 260 مهمة تصنيف قانونية مستمدة من قواعد بيانات المحكمة العليا ومحكمة الاستئناف. تتفوق نماذج Lawma GPT-4 على 95 ٪ من مهام التصنيف القانونية هذه ، في المتوسط بأكثر من 17 نقطة دقة.
ما هي نماذج Lawma مفيدة؟ نوصي باستخدام نماذج Lawma فقط لمهام التصنيف القانونية التي تم ضبطها على النماذج. إن التخلص الرئيسي من ورقتنا هو أن النماذج المتخصصة تؤدي إلى تحسينات كبيرة في الأداء. لذلك ، نوصي بشدة الممارسين بزيادة ضبط القانون في المهام الفعلية التي سيتم استخدام النماذج لها. قد تؤدي أمثلة قليلة نسبيًا-على سبيل المثال ، العشرات أو المئات-بالفعل إلى مكاسب كبيرة في الأداء.
لماذا مهام التصنيف القانونية هذه؟ أسبابنا لدراسة مهام التصنيف القانونية تقنية وموضوعية. من منظور التعلم الآلي التقني ، توفر هذه المهام مشاكل تصنيف غير تافهة للغاية حيث تترك أفضل النماذج مساحة كبيرة للتحسين. من منظور قانوني موضوعي ، فإن الحلول الفعالة لمشاكل التصنيف هذه لها تطبيقات غنية ومهمة في البحوث القانونية. نحن نقدم رمزًا لتقييم أداء نماذج HF في مهام التصنيف هذه.
لتقييم نماذج اللغة على كل من 260 المهام القانونية ، يرجى الرجوع إلى مجلد التقييم ، وخاصة hf_eval.py. يجب أولاً تنزيل ملفات المهمة من هنا ، أو إنشاءها بنفسك باتباع التعليمات في مجلد Data_generation. قمنا بتقييم مجموعة من نماذج اللغة:
| نموذج | جميع المهام | مهام المحكمة العليا | مهام محكمة الاستئناف |
|---|---|---|---|
| Lawma 70b | 81.9 | 84.1 | 81.5 |
| Lawma 8b | 80.3 | 82.4 | 79.9 |
| GPT4 | 62.9 | 59.8 | 63.4 |
| Llama 3 70B Inst | 58.4 | 47.1 | 60.3 |
| Mixtral 8x7b Inst | 43.2 | 24.4 | 46.4 |
| Llama 3 8b Inst | 42.6 | 32.8 | 44.2 |
| المصنف الأغلبية | 41.7 | 31.5 | 43.5 |
| Mistral 7b Inst | 39.9 | 19.5 | 43.4 |
| شاول 7B Inst | 34.4 | 20.2 | 36.8 |
| Legalbert | 24.6 | 13.6 | 26.4 |
تتفوق نماذج Lawma بشكل كبير على جميع النماذج الأخرى التي تم اختبارها ، وخاصة GPT-4. لاحظ أنه على الرغم من أن Lawma 70b يتفوق بشكل عام على Lawma 8b ، فإن الفرق في الأداء صغير إلى حد ما. لذلك ، قد يفضل الممارسون استخدام Lawma 8b لاستدلاله الأرخص بشكل ملحوظ وضبطه ، مع القليل من التكلفة من حيث الأداء النموذجي.
ملاحظة: تقييم النماذج على جميع مهام التصنيف 260 هو حساب مكثف بشكل معقول. ومع ذلك ، لأغراض قياس نموذج اللغة ، قد نكون مهتمين في الغالب بالأداء الكلي. نحن نعمل حاليًا على جعل التقييمات الإجمالية أقل كثافة في الموارد من خلال النظر فقط في عدد محدود من الأمثلة لكل مهمة.
نحن نتحمل Lawma باستخدام مكتبة Axolotl. يرجى الرجوع إلى README في المجلد الدقيق للبرامج النصية التدريبية وملفات التكوين التي استخدمناها لضبط Lawma.
للضبط على مجموعة البيانات الخاصة بنا من مهام التصنيف القانونية ، ببساطة الإشارة إلى ذلك في ملف config.yml الخاص بك:
datasets :
- path : ricdomolm/lawma-all-tasks
type : alpacaثم تدريب باستخدام Axolotl كالمعتاد
accelerate launch -m axolotl.cli.train config.ymlتطلبت صياغة Lawma 8b على 7xh100 وحدات معالجة الرسومات ما مجموعه 600 H100 ساعة (3 عصر) ، في حين أن صياغة Lawma 70b في 8 H100 من 8 وحدات معالجة الرسومات المطلوبة حوالي 1600 ساعة 100 ساعة (1 عصر). نجد أن المزيد من الحقائب تؤذي أداء المهمة المتوسط.
لإعادة إنتاج نتائج الورقة ، اتخذ الخطوات التالية:
راجع ملفات readme.md في الدلائل الفرعية للحصول على وثائق إضافية.
يرجى الاستشهاد بـ:
@misc{dominguezolmedo2024lawmapowerspecializationlegal,
title={Lawma: The Power of Specialization for Legal Tasks},
author={Ricardo Dominguez-Olmedo and Vedant Nanda and Rediet Abebe and Stefan Bechtold and Christoph Engel and Jens Frankenreiter and Krishna Gummadi and Moritz Hardt and Michael Livermore},
year={2024},
eprint={2407.16615},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.16615},
}