このリポジトリには、スペインの法的領域の2つの主要なリソースのページが含まれています。
リポジトリとプリプリントは、より大きなモデル、評価などで更新されます。
スペイン語のために訓練されたモデルはほとんどありません。一部のモデルは、低リソース、汚れたコーパスで訓練されています。言語技術のためのスペイン国家計画から派生したものは、いくつかのタスクを熟練しており、大規模なクリーンコーパスを使用して訓練されています。ただし、スペインの法的領域は独立した言語を考えることができます。したがって、私たちは、Legal Corporaのみで訓練されたゼロからスペインの法的モデルを作成しました。
進行中の作業。
| コーパス名 | サイズ(GB) | トークン(m) |
|---|---|---|
| Procesos Pailes | 0.625 | 0.119 |
| JRC Acquis | 0.345 | 59.359 |
| CódigosElectronicosUniversitarios | 0.077 | 11.835 |
| コディゴスエレクトロニコス | 0.080 | 12.237 |
| ドクトリナ・デ・ラ・フィスカリア・デル・エスタド将軍 | 0.017 | 2.669 |
| LegislaciónBoe | 3.600 | 578.685 |
| AbogacíaDelEstado Boe | 0.037 | 6.123 |
| Consejo de Estado:dictámenes | 0.827 | 135.348 |
| スペインのユーレックス | 0.001 | 0.072 |
| 国連決議 | 0.023 | 3.539 |
| スペイン犬 | 0.826 | 132.569 |
| スペインのマルチュン | 2.200 | 352.653 |
| Consultas Tributarias Generales Y Vinculantes | 0.466 | 77.691 |
| ConstituciónEspañola | 0.002 | 0.018 |
| COPPA特許コーパス | 0.002 | - |
| 生物医学的特許 | 0.083 | - |
抱きしめる顔が提供するスクリプトを使用して、さまざまなダウンストリームタスクのモデルをトレーニングできます(名前エンティティ認識、接着タスクなど)
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])この作業が役立つ場合は、引用してください。
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
? (1)コーパスを拡張して、より大きなモデルを作成することに興味があります(2)他のタスクでモデルを評価/トレーニングします。
この作業に関する質問については、[email protected]にお問い合わせください
このリポジトリで公開されているモデルは、ジェネラリストの目的を目的としており、第三者が利用できます。これらのモデルには、バイアスやその他の望ましくない歪みがあります。
第三者、これらのモデルのいずれかを使用して他の関係者にシステムおよび/またはサービスを展開または提供する場合(またはこれらのモデルに基づいてシステムを使用している)、またはモデルのユーザーになる場合、人工知能の使用に関する規制を含む適切な規制を遵守することから生じるリスクを軽減することは責任であることに注意する必要があります。
いかなる場合でも、モデルの所有者(セディア - デジタル化および人工知能の州事務局)も、作成者(BSC - バルセロナスーパーコンピューティングセンター)が、これらのモデルの第三者が作成した使用から生じる結果に対して責任を負います。
los modelos publicados en este repositorio tienen una fanigridad generalista yestánadispuricióndeterceros。 Estos Modelos Pueden Tener sesgos y/u otro tipo de distorsiones indeseables。
Cuando Terceros Desplieguen o Proporcionen sistemas y/o servicios a otras cartes usando alguno de estos modelos(o utilizando sistemas basados en estos modelos) de su uso y、en todo caso、cumplir con la normativa aplubly、incluyendo la normativa en materia de uso de inteligencia人工。
enningúnasoel propietario de los modelos(セディア - 秘書デジタルザシオンEインテリゲンシア人工)ni el creador(bsc - バルセロナスーパーコンピューティングセンター)los resultados derivados delivados del uso uso hagan terceros de estos modelos。