roberta legal portuguese
1.0.0
このリポジトリは、関連するリソースを論文に提供しますRobertAlexpt:ポルトガル人のための重複排除で前提とされる法的ロバータモデル。
ヒント
ロベルタリーガルポルトガル語をご覧ください。コレクション!
トレーニング前の2つの主要なコーパスをコンパイルします。
| コーパス | ドメイン | トークン(b) | サイズ(ギブ) |
|---|---|---|---|
| legalpt | 法律上の | 22.5 | 125.1 |
| crawlpt | |||
| BRWAC | 一般的な | 2.7 | 16.3 |
| CC100(PT) | 一般的な | 8.4 | 49.1 |
| OSCAR-2301(PT) | 一般的な | 18.1 | 97.8 |
重複排除は、Lee et al。 (2022)。ジャッカーの類似性が0.7を超えた場合、2つのドキュメントが同一であると考えると、5グラムとサイズ256の署名を使用しました。
Portulex Benchmarkは、ポルトガルの法的文脈における言語モデルの品質とパフォーマンスを評価するために設計された4タスクベンチマークです。
| データセット | タスク | 電車 | 開発者 | テスト |
|---|---|---|---|---|
| RRI | CLS | 8.26K | 1.05k | 1.47K |
| LENER-BR | ええと | 7.83k | 1.18K | 1,39k |
| ユリシーズシュナー-Br | ええと | 3.28K | 489 | 524 |
| FGV-STF | ええと | 415 | 60 | 119 |
私たちのモデルは、4つの異なる構成で前提とされていました。
Portulexベンチマークテスト分割で評価された複数のモデルのマクロF1スコア(%):
| モデル | レナー | ulyner-pl | FGV-STF | rrip | 平均 (%) |
|---|---|---|---|---|---|
| 粗い/罰金 | 粗い | ||||
| Bertimbauベース | 88.34 | 86.39/83.83 | 79.34 | 82.34 | 83.78 |
| Bertimbau-Large | 88.64 | 87.77/84.74 | 79.71 | 83.79 | 84.60 |
| Albertina-pt-br-base | 89.26 | 86.35/84.63 | 79.30 | 81.16 | 83.80 |
| Albertina-Pt-Br-Xlarge | 90.09 | 88.36/ 86.62 | 79.94 | 82.79 | 85.08 |
| ベルティカルベース | 83.68 | 79.21/75.70 | 77.73 | 81.11 | 79.99 |
| 法学ベース | 81.74 | 81.67/77.97 | 76.04 | 80.85 | 79.61 |
| Bertimbaulaw-base | 84.90 | 87.11/84.42 | 79.78 | 82.35 | 83.20 |
| Legal-XLM-R-Base | 87.48 | 83.49/83.16 | 79.79 | 82.35 | 83.24 |
| Legal-XLM-R-Large | 88.39 | 84.65/84.55 | 79.36 | 81.66 | 83.50 |
| Legal-Roberta-Pt-Large | 87.96 | 88.32/84.83 | 79.57 | 81.98 | 84.02 |
| 私たちのもの | |||||
| Robertatimbau-base(Bertimbauの複製) | 89.68 | 87.53/85.74 | 78.82 | 82.03 | 84.29 |
| Robertalegalpt-Base(Legalptで訓練された) | 90.59 | 85.45/84.40 | 79.92 | 82.84 | 84.57 |
| robertacrawlpt-base(crawlptでトレーニング) | 89.24 | 88.22/86.58 | 79.88 | 82.80 | 84.83 |
| robertalexpt-base(crawlpt + legalptでトレーニング) | 90.73 | 88.56 /86.03 | 80.40 | 83.22 | 85.41 |
要約すると、RobertAlexptは、基本規模にもかかわらず、一貫して最高の法的NLPの有効性を達成しています。十分なトレーニング前のデータを使用すると、より大きなモデルを上回ることができます。結果は、モデルスケールにわたるドメインダイバートレーニングデータの重要性を強調しています。
@inproceedings { garcia-etal-2024-robertalexpt ,
title = " {R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese " ,
author = " Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A. " ,
editor = " Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{c{c}}alo and
Amaro, Raquel " ,
booktitle = " Proceedings of the 16th International Conference on Computational Processing of Portuguese " ,
month = mar,
year = " 2024 " ,
address = " Santiago de Compostela, Galicia/Spain " ,
publisher = " Association for Computational Lingustics " ,
url = " https://aclanthology.org/2024.propor-1.38 " ,
pages = " 374--383 " ,
}この作業は、Goiás連邦大学(INF-UFG)の情報研究所のAI Center of Excellence(Centro deExcelênciaemInteligência人工 - CEIA)によってサポートされています。