يوفر هذا المستودع الموارد ذات الصلة للورقة Robertalexpt: نموذج قانوني لـ Roberta PretRied مع إلغاء ترسيقي للبرتغاليين.
نصيحة
تحقق من روبرتا البرتغالية القانونية؟ مجموعة!
نقوم بتجميع اثنين من الشركات الرئيسية للتدريب المسبق:
| مجموعة | اِختِصاص | الرموز (ب) | الحجم (GIB) |
|---|---|---|---|
| Legalpt | قانوني | 22.5 | 125.1 |
| الزحف | |||
| برواك | عام | 2.7 | 16.3 |
| CC100 (PT) | عام | 8.4 | 49.1 |
| Oscar-2301 (PT) | عام | 18.1 | 97.8 |
تم تنفيذ إلغاء التكلفة باستخدام خوارزمية Minhash وتجزئة محلية حساسة ، بعد نهج Lee et al. (2022). استخدمنا 5 غرامات وتوقيع بحجم 256 ، مع الأخذ في الاعتبار أن اثنين من الوثيقتين متطابقان إذا تجاوز تشابههما JACCard 0.7.
Portulex Benchmark هو معيار من أربعة مهام مصمم لتقييم جودة وأداء نماذج اللغة في السياق القانوني البرتغالي.
| مجموعة البيانات | مهمة | يدرب | ديف | امتحان |
|---|---|---|---|---|
| RRI | CLS | 8.26k | 1.05k | 1.47k |
| Lener-Br | نير | 7.83k | 1.18k | 1،39k |
| أوليسيسنر برين | نير | 3.28K | 489 | 524 |
| FGV-STF | نير | 415 | 60 | 119 |
تم تجهيز نموذجنا في أربعة تكوينات مختلفة:
درجة الماكرو F1 (٪) لنماذج متعددة تم تقييمها على انقسامات اختبار Portulex Benchmark:
| نموذج | لينر | Ulyner-Pl | FGV-STF | rrip | متوسط (٪) |
|---|---|---|---|---|---|
| خشن/غرامة | خشن | ||||
| مقرها بيرتيمبا | 88.34 | 86.39/83.83 | 79.34 | 82.34 | 83.78 |
| Bertimbau-large | 88.64 | 87.77/84.74 | 79.71 | 83.79 | 84.60 |
| ألبرتينا-ب | 89.26 | 86.35/84.63 | 79.30 | 81.16 | 83.80 |
| Albertina-PT-BR-Xlarge | 90.09 | 88.36/ 86.62 | 79.94 | 82.79 | 85.08 |
| Bertikal-base | 83.68 | 79.21/75.70 | 77.73 | 81.11 | 79.99 |
| Jurisbert-Base | 81.74 | 81.67/77.97 | 76.04 | 80.85 | 79.61 |
| Bertimbaulaw-base | 84.90 | 87.11/84.42 | 79.78 | 82.35 | 83.20 |
| Legal-XLM-R-base | 87.48 | 83.49/83.16 | 79.79 | 82.35 | 83.24 |
| Legal-xlm-r-large | 88.39 | 84.65/84.55 | 79.36 | 81.66 | 83.50 |
| قانوني روبرتا-ب | 87.96 | 88.32/84.83 | 79.57 | 81.98 | 84.02 |
| لنا | |||||
| Robertatimbau-base (استنساخ Bertimbau) | 89.68 | 87.53/85.74 | 78.82 | 82.03 | 84.29 |
| Robertalegalpt-Base (تدرب على LegalPt) | 90.59 | 85.45/84.40 | 79.92 | 82.84 | 84.57 |
| Robertacrawlpt-base (تدرب على الزحف) | 89.24 | 88.22/86.58 | 79.88 | 82.80 | 84.83 |
| Robertalexpt-Base (تدرب على Crawlpt + Legalpt) | 90.73 | 88.56 /86.03 | 80.40 | 83.22 | 85.41 |
باختصار ، يحقق Robertalexpt باستمرار أفضل فعالية NLP القانونية على الرغم من حجمه الأساسي. مع بيانات ما قبل التدريب الكافية ، يمكن أن تتجاوز نماذج أكبر. تسلط النتائج الضوء على أهمية بيانات التدريب على النطاق على مقياس النموذج الشديد.
@inproceedings { garcia-etal-2024-robertalexpt ,
title = " {R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese " ,
author = " Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A. " ,
editor = " Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{c{c}}alo and
Amaro, Raquel " ,
booktitle = " Proceedings of the 16th International Conference on Computational Processing of Portuguese " ,
month = mar,
year = " 2024 " ,
address = " Santiago de Compostela, Galicia/Spain " ,
publisher = " Association for Computational Lingustics " ,
url = " https://aclanthology.org/2024.propor-1.38 " ,
pages = " 374--383 " ,
}تم دعم هذا العمل من قبل مركز التميز الذكاء الاصطناعي (Centro de Excelência em Inteligência المصطنعة-CEIA) لمعهد المعلوماتية في الجامعة الفيدرالية في Goiás (Inf-UFG).