Este repositório fornece os recursos relacionados ao documento Robertalexpt: um modelo legal de Roberta pré -criado com desduplicação de português.
Dica
Confira o português legal de Roberta? Coleção!
Compilamos dois corpora principal para pré-treinamento:
| Corpus | Domínio | Tokens (B) | Tamanho (Gib) |
|---|---|---|---|
| Legalpt | Jurídico | 22.5 | 125.1 |
| Rastrear | |||
| BRWAC | Em geral | 2.7 | 16.3 |
| CC100 (PT) | Em geral | 8.4 | 49.1 |
| Oscar-2301 (Pt) | Em geral | 18.1 | 97.8 |
A desduplicação foi feita usando o algoritmo de Minash e o hash sensível à localidade, seguindo a abordagem de Lee et al. (2022). Utilizamos 5 gramas e uma assinatura do tamanho 256, considerando que dois documentos são idênticos se a similaridade do Jaccard exceder 0,7.
O Benchmark Portulex é uma referência de quatro tarefas projetada para avaliar a qualidade e o desempenho dos modelos de idiomas no contexto legal português.
| Conjunto de dados | Tarefa | Trem | Dev | Teste |
|---|---|---|---|---|
| Rri | Cls | 8.26k | 1.05k | 1.47k |
| Lener-BR | Ner | 7.83k | 1.18k | 1,39k |
| ULYSSSSESNER-BR | Ner | 3.28k | 489 | 524 |
| FGV-STF | Ner | 415 | 60 | 119 |
Nosso modelo foi pré -levado em quatro configurações diferentes:
Macro F1-Score (%) para vários modelos avaliados nas divisões de teste de benchmark de Portulex:
| Modelo | Lener | Ulyner-pl | FGV-STF | Rrip | Média (%) |
|---|---|---|---|---|---|
| Grosso/fino | Grosso | ||||
| Baseado em Bertimbau | 88.34 | 86.39/83.83 | 79.34 | 82.34 | 83.78 |
| Bertimbau-grande | 88.64 | 87.77/84.74 | 79.71 | 83.79 | 84.60 |
| Albertina-PT-BRAS-BASE | 89.26 | 86.35/84.63 | 79.30 | 81.16 | 83.80 |
| Albertina-PT-Br-Xlarge | 90.09 | 88.36/ 86.62 | 79.94 | 82.79 | 85.08 |
| Bertikal-Base | 83.68 | 79.21/75.70 | 77.73 | 81.11 | 79.99 |
| Jurisbert-Base | 81.74 | 81.67/77.97 | 76.04 | 80,85 | 79.61 |
| Bertimbaulaw-Base | 84.90 | 87.11/84.42 | 79.78 | 82.35 | 83.20 |
| Legal-Xlm-R-Base | 87.48 | 83.49/83.16 | 79.79 | 82.35 | 83.24 |
| Legal-Xlm-R-Large | 88.39 | 84.65/84.55 | 79.36 | 81.66 | 83.50 |
| Legal-Roberta-PT-Large | 87.96 | 88.32/84.83 | 79.57 | 81.98 | 84.02 |
| Nosso | |||||
| Robertatimbau-Base (reprodução de Bertimbau) | 89.68 | 87.53/85.74 | 78.82 | 82.03 | 84.29 |
| Robertalegalpt-Base (treinado no Legalpt) | 90.59 | 85.45/84.40 | 79.92 | 82.84 | 84.57 |
| Robertacrawlpt-Base (treinado no rastreamento) | 89.24 | 88.22/86.58 | 79.88 | 82.80 | 84.83 |
| Robertalexpt-Base (treinado no rastreamento + legalpt) | 90.73 | 88.56 /86.03 | 80,40 | 83.22 | 85.41 |
Em resumo, o Robertalexpt alcança consistentemente a maior eficácia legal da PNL, apesar de seu tamanho básico. Com dados de pré-treinamento suficientes, ele pode superar modelos maiores. Os resultados destacam a importância dos dados de treinamento de diversidade de domínio sobre a escala de modelos.
@inproceedings { garcia-etal-2024-robertalexpt ,
title = " {R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese " ,
author = " Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A. " ,
editor = " Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{c{c}}alo and
Amaro, Raquel " ,
booktitle = " Proceedings of the 16th International Conference on Computational Processing of Portuguese " ,
month = mar,
year = " 2024 " ,
address = " Santiago de Compostela, Galicia/Spain " ,
publisher = " Association for Computational Lingustics " ,
url = " https://aclanthology.org/2024.propor-1.38 " ,
pages = " 374--383 " ,
}Este trabalho foi apoiado pelo Centro de Excelência da IA (Centro de Excelênia Em Inteligênia Artificial-CEIA) do Instituto de Informática da Universidade Federal de Goiás (INF-UFG).