Repositori ini menyediakan sumber daya terkait ke kertas RobertalExpt: model Roberta yang legal pretrained dengan deduplikasi untuk Portugis.
Tip
Lihat Roberta Legal Portugis di? Koleksi!
Kami mengkompilasi dua korpora utama untuk pra-pelatihan:
| Corpus | Domain | Token (b) | Ukuran (GIB) |
|---|---|---|---|
| Legalpt | Legal | 22.5 | 125.1 |
| Merangkak | |||
| BRWAC | Umum | 2.7 | 16.3 |
| CC100 (PT) | Umum | 8.4 | 49.1 |
| Oscar-2301 (PT) | Umum | 18.1 | 97.8 |
Deduplikasi dilakukan dengan menggunakan algoritma Minhash dan hashing sensitif lokalitas, mengikuti pendekatan Lee et al. (2022). Kami menggunakan 5-gram dan tanda tangan ukuran 256, mengingat dua dokumen identik jika kesamaan jeruk mereka melebihi 0,7.
Benchmark Portulex adalah tolok ukur empat tugas yang dirancang untuk mengevaluasi kualitas dan kinerja model bahasa dalam konteks hukum Portugis.
| Dataset | Tugas | Kereta | Dev | Tes |
|---|---|---|---|---|
| RRI | Cls | 8.26k | 1.05k | 1.47K |
| Lener-BR | Ner | 7.83k | 1.18k | 1.39k |
| Ulyssesner-BR | Ner | 3.28k | 489 | 524 |
| FGV-STF | Ner | 415 | 60 | 119 |
Model kami telah pretrained dalam empat konfigurasi yang berbeda:
Makro F1-Score (%) untuk beberapa model yang dievaluasi pada pemisahan tes benchmark portulex:
| Model | Lener | Ulyner-pl | FGV-STF | RRIP | Rata-rata (%) |
|---|---|---|---|---|---|
| Kasar/halus | Kasar | ||||
| Berbasis Bertimbau | 88.34 | 86.39/83.83 | 79.34 | 82.34 | 83.78 |
| Bertimbau-Large | 88.64 | 87.77/84.74 | 79.71 | 83.79 | 84.60 |
| Albertina-pt-br-base | 89.26 | 86.35/84.63 | 79.30 | 81.16 | 83.80 |
| Albertina-Pt-BR-Xlarge | 90.09 | 88.36/ 86.62 | 79.94 | 82.79 | 85.08 |
| Base-base | 83.68 | 79.21/75.70 | 77.73 | 81.11 | 79.99 |
| Jurisbert-base | 81.74 | 81.67/77.97 | 76.04 | 80.85 | 79.61 |
| Bertimbaulaw-Base | 84.90 | 87.11/84.42 | 79.78 | 82.35 | 83.20 |
| Legal-xlm-r-base | 87.48 | 83.49/83.16 | 79.79 | 82.35 | 83.24 |
| Legal-xlm-r-besar | 88.39 | 84.65/84.55 | 79.36 | 81.66 | 83.50 |
| Legal-Roberta-Pt-Large | 87.96 | 88.32/84.83 | 79.57 | 81.98 | 84.02 |
| Milik kita | |||||
| Robertatimbau-Base (Reproduksi BerTIMBAU) | 89.68 | 87.53/85.74 | 78.82 | 82.03 | 84.29 |
| Robertalegalpt-base (dilatih di legalpt) | 90.59 | 85.45/84.40 | 79.92 | 82.84 | 84.57 |
| Robertacrawlpt-base (dilatih di crawlpt) | 89.24 | 88.22/86.58 | 79.88 | 82.80 | 84.83 |
| Robertalexpt-base (Dilatih di Crawlpt + LegalPT) | 90.73 | 88.56 /86.03 | 80.40 | 83.22 | 85.41 |
Singkatnya, Robertalexpt secara konsisten mencapai efektivitas NLP hukum teratas meskipun ukurannya dasar. Dengan data pra-pelatihan yang cukup, dapat melampaui model yang lebih besar. Hasilnya menyoroti pentingnya data pelatihan domain-penyelaman selama skala model.
@inproceedings { garcia-etal-2024-robertalexpt ,
title = " {R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese " ,
author = " Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A. " ,
editor = " Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{c{c}}alo and
Amaro, Raquel " ,
booktitle = " Proceedings of the 16th International Conference on Computational Processing of Portuguese " ,
month = mar,
year = " 2024 " ,
address = " Santiago de Compostela, Galicia/Spain " ,
publisher = " Association for Computational Lingustics " ,
url = " https://aclanthology.org/2024.propor-1.38 " ,
pages = " 374--383 " ,
}Pekerjaan ini telah didukung oleh AI Center of Excellence (Centro de Excelência em inteligência buatan-CEIA) dari Institute of Informatics di Federal University of Goiás (INF-UFG).