Este repositorio proporciona los recursos relacionados al documento Robertalexpt: un modelo legal de Roberta en exceso de deduplicación para portugués.
Consejo
¿Echa un vistazo a Roberta Legal Portuguese? ¡Recopilación!
Compilamos dos corpus principales para la capacitación previa:
| Cuerpo | Dominio | Tokens (b) | Tamaño (GIB) |
|---|---|---|---|
| Legal | Legal | 22.5 | 125.1 |
| Crawlpt | |||
| brwac | General | 2.7 | 16.3 |
| CC100 (PT) | General | 8.4 | 49.1 |
| Oscar-2301 (PT) | General | 18.1 | 97.8 |
La deduplicación se realizó utilizando el algoritmo Minhash y el hashes sensibles a la localidad, siguiendo el enfoque de Lee et al. (2022). Utilizamos 5 gramos y una firma de tamaño 256, considerando que dos documentos son idénticos si su similitud jaccard excedía 0.7.
Portulex Benchmark es un punto de referencia de cuatro tareas diseñado para evaluar la calidad y el rendimiento de los modelos de idiomas en el contexto legal portugués.
| Conjunto de datos | Tarea | Tren | Enchufe | Prueba |
|---|---|---|---|---|
| RRI | CLS | 8.26k | 1.05k | 1.47k |
| Lener-Br | Ner | 7.83k | 1.18k | 1.39k |
| Ulyssesner-Br | Ner | 3.28k | 489 | 524 |
| FGV-STF | Ner | 415 | 60 | 119 |
Nuestro modelo estaba previamente en cuatro configuraciones diferentes:
Macro F1-Score (%) para múltiples modelos evaluados en divisiones de prueba de referencia de Portulex:
| Modelo | Lener | Ulyner-PL | FGV-STF | Tripa | Promedio (%) |
|---|---|---|---|---|---|
| Grueso/bien | Grueso | ||||
| Con sede en Bertimbau | 88.34 | 86.39/83.83 | 79.34 | 82.34 | 83.78 |
| Bertimbau-grande | 88.64 | 87.77/84.74 | 79.71 | 83.79 | 84.60 |
| Albertina-Pt-Br-Base | 89.26 | 86.35/84.63 | 79.30 | 81.16 | 83.80 |
| Albertina-Pt-Br-Xlarge | 90.09 | 88.36/ 86.62 | 79.94 | 82.79 | 85.08 |
| Base bertikal | 83.68 | 79.21/75.70 | 77.73 | 81.11 | 79.99 |
| Base de Jurisbert | 81.74 | 81.67/77.97 | 76.04 | 80.85 | 79.61 |
| Base de bertimbaula | 84.90 | 87.11/84.42 | 79.78 | 82.35 | 83.20 |
| Legal-xlm-r-base | 87.48 | 83.49/83.16 | 79.79 | 82.35 | 83.24 |
| Legal-xlm-r-large | 88.39 | 84.65/84.55 | 79.36 | 81.66 | 83.50 |
| Legal-robta-apt-larga | 87.96 | 88.32/84.83 | 79.57 | 81.98 | 84.02 |
| Nuestro | |||||
| Robertatimbau-Base (Reproducción de Bertimbau) | 89.68 | 87.53/85.74 | 78.82 | 82.03 | 84.29 |
| Robertalegalpt-Base (capacitado en legalt) | 90.59 | 85.45/84.40 | 79.92 | 82.84 | 84.57 |
| Robertacrawlpt-Base (entrenado en Crawlpt) | 89.24 | 88.22/86.58 | 79.88 | 82.80 | 84.83 |
| Robertalexpt-Base (entrenado en Crawlpt + Legalpt) | 90.73 | 88.56 /86.03 | 80.40 | 83.22 | 85.41 |
En resumen, Robertalexpt logra constantemente la máxima efectividad legal de la PNL a pesar de su tamaño base. Con suficientes datos de pre-entrenamiento, puede superar modelos más grandes. Los resultados resaltan la importancia de los datos de capacitación de diversos de dominio en la escala de modelos pueros.
@inproceedings { garcia-etal-2024-robertalexpt ,
title = " {R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese " ,
author = " Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A. " ,
editor = " Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{c{c}}alo and
Amaro, Raquel " ,
booktitle = " Proceedings of the 16th International Conference on Computational Processing of Portuguese " ,
month = mar,
year = " 2024 " ,
address = " Santiago de Compostela, Galicia/Spain " ,
publisher = " Association for Computational Lingustics " ,
url = " https://aclanthology.org/2024.propor-1.38 " ,
pages = " 374--383 " ,
}Este trabajo ha sido apoyado por el Centro de Excelencia AI (Centro de Excelência em Inteligência Artificial-CEIA) del Instituto de Informática de la Universidad Federal de Goiás (Inf-Ufg).