Ce référentiel fournit les ressources connexes au document Robertalexpt: un modèle juridique Roberta prétraité avec déduplication pour Portugais.
Conseil
Découvrez Roberta Legal Portugais dans? Collection!
Nous compilons deux corps principaux pour la pré-formation:
| Corpus | Domaine | Jetons (b) | Taille (gib) |
|---|---|---|---|
| Légal | Légal | 22.5 | 125.1 |
| Ramper | |||
| brwac | Général | 2.7 | 16.3 |
| CC100 (PT) | Général | 8.4 | 49.1 |
| Oscar-2301 (PT) | Général | 18.1 | 97.8 |
La déduplication a été effectuée en utilisant l'algorithme de Minhash et le hachage sensible à la localité, suivant l'approche de Lee et al. (2022). Nous avons utilisé 5 grammes et une signature de taille 256, considérant que deux documents sont identiques si leur similitude Jaccard dépassait 0,7.
Portulex Benchmark est une référence à quatre tâches conçue pour évaluer la qualité et les performances des modèles linguistiques dans le contexte juridique portugais.
| Ensemble de données | Tâche | Former | Dev | Test |
|---|---|---|---|---|
| RRI | CLS | 8.26K | 1,05k | 1,47k |
| Lener-br | Nervure | 7,83k | 1,18k | 1,39k |
| Ulyssesner-br | Nervure | 3.28k | 489 | 524 |
| FGV-STF | Nervure | 415 | 60 | 119 |
Notre modèle a été pré-entraîné dans quatre configurations différentes:
Macro-score F1 (%) pour plusieurs modèles évalués sur les divisions de test de référence Porulex:
| Modèle | Seigler | Ulyner-pl | FGV-STF | Rrip | Moyenne (%) |
|---|---|---|---|---|---|
| Grossier / amende | Grossier | ||||
| Basé à Bertimbau | 88.34 | 86.39 / 83.83 | 79.34 | 82.34 | 83,78 |
| Bertimbau-grand | 88,64 | 87.77 / 84.74 | 79.71 | 83,79 | 84.60 |
| Albertina-PT-BR-base | 89.26 | 86.35 / 84.63 | 79.30 | 81.16 | 83.80 |
| Albertina-PT-BR-XlARGE | 90.09 | 88.36 / 86.62 | 79.94 | 82.79 | 85.08 |
| Bertikal-base | 83.68 | 79.21 / 75.70 | 77.73 | 81.11 | 79,99 |
| Jurisbert-base | 81.74 | 81.67 / 77.97 | 76.04 | 80.85 | 79.61 |
| Bassin de bertimbaulaw | 84.90 | 87.11 / 84.42 | 79.78 | 82.35 | 83.20 |
| Base légal-xlm-r | 87.48 | 83.49 / 83.16 | 79.79 | 82.35 | 83.24 |
| Légal-xlm-r-gard | 88.39 | 84.65 / 84.55 | 79.36 | 81,66 | 83.50 |
| Légal-roberta-pt-large | 87,96 | 88.32 / 84.83 | 79.57 | 81.98 | 84.02 |
| La nôtre | |||||
| Robertatimbau-base (reproduction de Bertimbau) | 89,68 | 87.53 / 85.74 | 78,82 | 82.03 | 84.29 |
| Robertalegalpt-base (formé sur Legitpt) | 90,59 | 85.45 / 84.40 | 79.92 | 82.84 | 84.57 |
| RobertAcrawlpt-base (formé sur le ballon) | 89.24 | 88.22 / 86.58 | 79.88 | 82.80 | 84.83 |
| Robertalexpt-base (formé sur le randonnée + légal) | 90,73 | 88.56 /86.03 | 80.40 | 83.22 | 85.41 |
En résumé, Robertalexpt atteint constamment l'efficacité légale du PNL légale malgré sa taille de base. Avec des données pré-formation suffisantes, il peut dépasser les modèles plus importants. Les résultats mettent en évidence l'importance des données d'entraînement du domaine en diversivers sur l'échelle du modèle pure.
@inproceedings { garcia-etal-2024-robertalexpt ,
title = " {R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese " ,
author = " Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A. " ,
editor = " Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{c{c}}alo and
Amaro, Raquel " ,
booktitle = " Proceedings of the 16th International Conference on Computational Processing of Portuguese " ,
month = mar,
year = " 2024 " ,
address = " Santiago de Compostela, Galicia/Spain " ,
publisher = " Association for Computational Lingustics " ,
url = " https://aclanthology.org/2024.propor-1.38 " ,
pages = " 374--383 " ,
}Ce travail a été soutenu par le Centre d'excellence de l'IA (Centro de Excelência Em Inteligência Artificiel - CEIA) de l'Institut d'informatique de l'Université fédérale de Goiás (INF-UFG).