roberta legal portuguese
1.0.0
이 저장소는 논문 Robertalexpt와 관련된 자원을 제공합니다. 포르투갈어에 대한 중복 제거로 전망 된 법적 Roberta 모델.
팁
Roberta Legal Portuguese를 확인하십시오. 수집!
우리는 사전 훈련을 위해 두 개의 주요 코퍼레이를 컴파일합니다.
| 신체 | 도메인 | 토큰 (b) | 크기 (gib) |
|---|---|---|---|
| 법률 | 합법적인 | 22.5 | 125.1 |
| 크롤링 | |||
| BRWAC | 일반적인 | 2.7 | 16.3 |
| CC100 (PT) | 일반적인 | 8.4 | 49.1 |
| 오스카 2301 (PT) | 일반적인 | 18.1 | 97.8 |
Lee et al. (2022). Jaccard 유사성이 0.7을 초과하는 경우 두 개의 문서가 동일하다는 점을 고려하여 5 그램과 크기 256의 서명을 사용했습니다.
Portulex 벤치 마크는 포르투갈 법적 맥락에서 언어 모델의 품질과 성능을 평가하기 위해 설계된 4- 태스크 벤치 마크입니다.
| 데이터 세트 | 일 | 기차 | 데브 | 시험 |
|---|---|---|---|---|
| RRI | CLS | 8.26K | 1.05K | 1.47K |
| Lener-Br | 네르 | 7.83K | 1.18K | 1,39k |
| 율리시스 스 너 브 | 네르 | 3.28K | 489 | 524 |
| FGV-STF | 네르 | 415 | 60 | 119 |
우리의 모델은 4 가지 구성으로 사전에 사전에 사전입니다.
Portulex 벤치 마크 테스트 스플릿에서 평가 된 다중 모델의 매크로 F1 점수 (%) :
| 모델 | 레너 | Ulyner-Pl | FGV-STF | RRIP | 평균 (%) |
|---|---|---|---|---|---|
| 거친/벌금 | 조잡한 | ||||
| Bertimbau 기반 | 88.34 | 86.39/83.83 | 79.34 | 82.34 | 83.78 |
| Bertimbau-Large | 88.64 | 87.77/84.74 | 79.71 | 83.79 | 84.60 |
| Albertina-PT-BR-Base | 89.26 | 86.35/84.63 | 79.30 | 81.16 | 83.80 |
| Albertina-PT-BR-XLARGE | 90.09 | 88.36/ 86.62 | 79.94 | 82.79 | 85.08 |
| Bertikal-base | 83.68 | 79.21/75.70 | 77.73 | 81.11 | 79.99 |
| Jurisbert-Base | 81.74 | 81.67/77.97 | 76.04 | 80.85 | 79.61 |
| Bertimbaulaw-base | 84.90 | 87.11/84.42 | 79.78 | 82.35 | 83.20 |
| 법률 -xlm-r-base | 87.48 | 83.49/83.16 | 79.79 | 82.35 | 83.24 |
| 법률 -xlm-r-large | 88.39 | 84.65/84.55 | 79.36 | 81.66 | 83.50 |
| 법률 로버타 -pt-large | 87.96 | 88.32/84.83 | 79.57 | 81.98 | 84.02 |
| 우리 것 | |||||
| Robertimbau-Base (Bertimbau의 재생산) | 89.68 | 87.53/85.74 | 78.82 | 82.03 | 84.29 |
| Robertalegalpt-Base (Legalpt에 대한 교육) | 90.59 | 85.45/84.40 | 79.92 | 82.84 | 84.57 |
| Robertacrawlpt-Base (크롤링 훈련) | 89.24 | 88.22/86.58 | 79.88 | 82.80 | 84.83 |
| Robertalexpt-Base (Crawlpt + Legalpt에 대한 교육) | 90.73 | 88.56 /86.03 | 80.40 | 83.22 | 85.41 |
요약하면, Robertalexpt는 기본 크기에도 불구하고 최고 법적 NLP 효과를 지속적으로 달성합니다. 충분한 사전 훈련 데이터를 사용하면 더 큰 모델을 능가 할 수 있습니다. 결과는 분명한 모델 척도에 대한 도메인 디버세 교육 데이터의 중요성을 강조합니다.
@inproceedings { garcia-etal-2024-robertalexpt ,
title = " {R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese " ,
author = " Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A. " ,
editor = " Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{c{c}}alo and
Amaro, Raquel " ,
booktitle = " Proceedings of the 16th International Conference on Computational Processing of Portuguese " ,
month = mar,
year = " 2024 " ,
address = " Santiago de Compostela, Galicia/Spain " ,
publisher = " Association for Computational Lingustics " ,
url = " https://aclanthology.org/2024.propor-1.38 " ,
pages = " 374--383 " ,
}이 작업은 연방 고이파 (Goiás) 연방 대학교 (Inf-UFG)의 정보학 연구소의 AI 우수 센터 (Centro de Excelência em Inteligência Artificial-CEIA)에 의해 지원되었습니다.