พื้นที่เก็บข้อมูลนี้ให้ทรัพยากรที่เกี่ยวข้องกับกระดาษ Robertalexpt: โมเดล Roberta ตามกฎหมายได้รับการปรับแต่งด้วยการซ้ำซ้อนสำหรับภาษาโปรตุเกส
เคล็ดลับ
ตรวจสอบ Roberta Legal Portuguese ใน? ของสะสม!
เรารวบรวมสอง corpora หลักสำหรับการฝึกอบรมก่อน:
| คอร์ปัส | โดเมน | โทเค็น (B) | ขนาด (กิบ) |
|---|---|---|---|
| กฎหมาย | ถูกกฎหมาย | 22.5 | 125.1 |
| รวบรวมข้อมูล | |||
| brwac | ทั่วไป | 2.7 | 16.3 |
| CC100 (PT) | ทั่วไป | 8.4 | 49.1 |
| OSCAR-2301 (PT) | ทั่วไป | 18.1 | 97.8 |
การขจัดข้อมูลซ้ำซ้อนทำได้โดยใช้อัลกอริทึม Minhash และ Hashing ที่มีความละเอียดอ่อนในท้องถิ่นตามแนวทางของ Lee และคณะ (2022) เราใช้ 5 กรัมและลายเซ็นขนาด 256 โดยพิจารณาจากเอกสารสองฉบับที่จะเหมือนกันหากความคล้ายคลึงกันของ Jaccard เกิน 0.7
Portulex Benchmark เป็นเกณฑ์มาตรฐานสี่งานที่ออกแบบมาเพื่อประเมินคุณภาพและประสิทธิภาพของแบบจำลองภาษาในบริบททางกฎหมายของโปรตุเกส
| ชุดข้อมูล | งาน | รถไฟ | คนกิน | ทดสอบ |
|---|---|---|---|---|
| rri | CLS | 8.26K | 1.05K | 1.47K |
| Lener-BR | คนโง่ | 7.83K | 1.18K | 1,39K |
| ulyssesner-br | คนโง่ | 3.28K | 489 | 524 |
| FGV-STF | คนโง่ | 415 | 60 | 119 |
โมเดลของเราได้รับการปรับแต่งในสี่การกำหนดค่าที่แตกต่างกัน:
Macro F1-score (%) สำหรับหลายรุ่นที่ประเมินในการแยกการทดสอบมาตรฐาน Portulex:
| แบบอย่าง | ผู้เลียนแบบ | Ulyner-pl | FGV-STF | rrip | เฉลี่ย (%) |
|---|---|---|---|---|---|
| หยาบ/ดี | หยาบ | ||||
| Bertimbau | 88.34 | 86.39/83.83 | 79.34 | 82.34 | 83.78 |
| Bertimbau ขนาดใหญ่ | 88.64 | 87.77/84.74 | 79.71 | 83.79 | 84.60 |
| Albertina-pt-br-base | 89.26 | 86.35/84.63 | 79.30 | 81.16 | 83.80 |
| Albertina-pt-br-xlarge | 90.09 | 88.36/ 86.62 | 79.94 | 82.79 | 85.08 |
| เบสเบส | 83.68 | 79.21/75.70 | 77.73 | 81.11 | 79.99 |
| ฐานทัพ | 81.74 | 81.67/77.97 | 76.04 | 80.85 | 79.61 |
| เบสเบส | 84.90 | 87.11/84.42 | 79.78 | 82.35 | 83.20 |
| ตามกฎหมาย -xlm-r-base | 87.48 | 83.49/83.16 | 79.79 | 82.35 | 83.24 |
| ตามกฎหมาย -XLM-R-Large | 88.39 | 84.65/84.55 | 79.36 | 81.66 | 83.50 |
| ตามกฎหมาย-Roberta-PT | 87.96 | 88.32/84.83 | 79.57 | 81.98 | 84.02 |
| ของเรา | |||||
| Robertatimbau-base (การทำซ้ำของ Bertimbau) | 89.68 | 87.53/85.74 | 78.82 | 82.03 | 84.29 |
| Robertalegalpt-base (ฝึกอบรมเรื่อง legalpt) | 90.59 | 85.45/84.40 | 79.92 | 82.84 | 84.57 |
| Robertacrawlpt-base (ฝึกอบรมเกี่ยวกับ Crawlpt) | 89.24 | 88.22/86.58 | 79.88 | 82.80 | 84.83 |
| Robertalexpt-base (ได้รับการฝึกฝนเกี่ยวกับ Crawlpt + Legalpt) | 90.73 | 88.56 /86.03 | 80.40 | 83.22 | 85.41 |
โดยสรุป Robertalexpt ประสบความสำเร็จอย่างต่อเนื่องในประสิทธิภาพของ NLP อย่างต่อเนื่องแม้จะมีขนาดพื้นฐาน ด้วยข้อมูลการฝึกอบรมล่วงหน้าที่เพียงพอจึงสามารถเกินรุ่นที่ใหญ่กว่า ผลลัพธ์เน้นความสำคัญของข้อมูลการฝึกอบรมโดเมนที่มีความหลากหลายเหนือมาตราส่วนแบบจำลองที่แท้จริง
@inproceedings { garcia-etal-2024-robertalexpt ,
title = " {R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese " ,
author = " Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A. " ,
editor = " Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{c{c}}alo and
Amaro, Raquel " ,
booktitle = " Proceedings of the 16th International Conference on Computational Processing of Portuguese " ,
month = mar,
year = " 2024 " ,
address = " Santiago de Compostela, Galicia/Spain " ,
publisher = " Association for Computational Lingustics " ,
url = " https://aclanthology.org/2024.propor-1.38 " ,
pages = " 374--383 " ,
}งานนี้ได้รับการสนับสนุนโดยศูนย์ความเป็นเลิศ AI (Centro de Excelência Em Inteligênciaเทียม-CEIA) ของสถาบันสารสนเทศที่มหาวิทยาลัยGoiás (INF-UFG)