Dieses Repository bietet die damit verbundenen Ressourcen für das Papier Robertalexpt: ein legales Roberta -Modell, das mit einer Deduplizierung für Portugiesisch vorgebracht wurde.
Tipp
Schauen Sie sich Roberta Legal Portugiesisch an? Sammlung!
Wir erstellen zwei Hauptkorpora für die Vorausbildung:
| Korpus | Domain | Token (b) | Größe (Gib) |
|---|---|---|---|
| Legalpt | Legal | 22.5 | 125.1 |
| Crawpt | |||
| Brwac | Allgemein | 2.7 | 16.3 |
| CC100 (PT) | Allgemein | 8.4 | 49.1 |
| Oscar-2301 (PT) | Allgemein | 18.1 | 97,8 |
Die Deduplizierung wurde unter Verwendung von Minhash -Algorithmus und lokalem sensitivem Hashing nach dem Ansatz von Lee et al. (2022). Wir verwendeten 5 Gramm und eine Signatur von Größe 256, wobei zwei Dokumente identisch sind, wenn ihre Jaccard-Ähnlichkeit 0,7 überschritt.
Portulex-Benchmark ist ein Vier-Task-Benchmark, der die Qualität und Leistung von Sprachmodellen im juristischen Kontext portugiesischer Kontext bewertet.
| Datensatz | Aufgabe | Zug | Dev | Prüfen |
|---|---|---|---|---|
| RRI | Cls | 8.26k | 1,05K | 1,47K |
| Lener-Br | Ner | 7,83K | 1,18K | 1,39K |
| Ulyssesner-Br | Ner | 3,28K | 489 | 524 |
| FGV-STF | Ner | 415 | 60 | 119 |
Unser Modell wurde in vier verschiedenen Konfigurationen vorgebracht:
Makro F1-Score (%) für mehrere Modelle, die auf dem Portulex-Benchmark-Testspalten bewertet wurden:
| Modell | Lener | Ulyner-pl | FGV-STF | Rrip | Durchschnitt (%) |
|---|---|---|---|---|---|
| Grob/gut | Grob | ||||
| Bertimbau basiert | 88.34 | 86.39/83.83 | 79,34 | 82.34 | 83.78 |
| Bertimbau-Large | 88,64 | 87.77/84.74 | 79,71 | 83.79 | 84.60 |
| Albertina-Pt-Br-Base | 89,26 | 86.35/84.63 | 79.30 | 81.16 | 83,80 |
| Albertina-Pt-BR-Xlarge | 90.09 | 88.36/ 86.62 | 79,94 | 82.79 | 85.08 |
| Bertikal-Base | 83.68 | 79,21/75.70 | 77,73 | 81.11 | 79,99 |
| Jurisbert-Base | 81.74 | 81.67/77.97 | 76.04 | 80.85 | 79,61 |
| Bertimbaulaw-Base | 84,90 | 87.11/84.42 | 79,78 | 82.35 | 83.20 |
| Legal-XLM-R-Base | 87,48 | 83.49/83.16 | 79,79 | 82.35 | 83.24 |
| Legal-xlm-r-large | 88.39 | 84,65/84.55 | 79,36 | 81.66 | 83,50 |
| Legal-Roberta-Pt-Large | 87,96 | 88.32/84.83 | 79,57 | 81.98 | 84.02 |
| Unsere | |||||
| Robertatimbau-Base (Reproduktion von Bertimbau) | 89,68 | 87.53/85.74 | 78,82 | 82.03 | 84.29 |
| Robertalegalpt-Base (ausgebildet auf Legalpt) | 90.59 | 85.45/84.40 | 79,92 | 82.84 | 84,57 |
| Robertacrawpts-Base (trainiert auf Crawlpt) | 89.24 | 88.22/86.58 | 79,88 | 82.80 | 84,83 |
| Robertalexpt-Base (ausgebildet auf Crawlpt + legalpt) | 90.73 | 88.56 /86.03 | 80.40 | 83.22 | 85.41 |
Zusammenfassend erreicht Robertalexpt trotz seiner Basisgröße konsequent eine Top -Legal -NLP -Wirksamkeit. Mit ausreichenden Daten vor dem Training kann es größere Modelle übertreffen. Die Ergebnisse unterstreichen die Bedeutung von Trainingsdaten von Domain-Diversen für die schiere Modellskala.
@inproceedings { garcia-etal-2024-robertalexpt ,
title = " {R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese " ,
author = " Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A. " ,
editor = " Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{c{c}}alo and
Amaro, Raquel " ,
booktitle = " Proceedings of the 16th International Conference on Computational Processing of Portuguese " ,
month = mar,
year = " 2024 " ,
address = " Santiago de Compostela, Galicia/Spain " ,
publisher = " Association for Computational Lingustics " ,
url = " https://aclanthology.org/2024.propor-1.38 " ,
pages = " 374--383 " ,
}Diese Arbeit wurde vom KI-Zentrum für Exzellenz (Centro de Excelência em Intrigência künstlich-CEIA) des Instituts für Informatik an der Federal University of Goiás (INF-UFG) unterstützt.