Ce référentiel contient la page pour deux ressources principales pour le domaine juridique espagnol:
Le référentiel et la pré-impression seront mis à jour avec des modèles plus grands, des évaluations, etc.
Il existe peu de modèles formés pour la langue espagnole. Certains modèles ont été formés avec une faible ressource et des corpus impurs. Ceux dérivés du plan national espagnol des technologies linguistiques sont compétents en résolvant plusieurs tâches et ont été formés à l'aide de corpus propres à grande échelle. Cependant, la langue du domaine juridique espagnol pourrait être de penser à une langue indépendante à elle seule. Nous avons donc créé un modèle juridique espagnol à partir de zéro formé exclusivement sur les corpus juridiques.
Travail en cours.
| Nom du corpus | Taille (GB) | Jetons (m) |
|---|---|---|
| Procesos pénales | 0,625 | 0,119 |
| JRC acquis | 0,345 | 59.359 |
| Códigos Electrónicos Universitarios | 0,077 | 11.835 |
| Códigos Electrónicos | 0,080 | 12.237 |
| Doctrina de la Fiscalía General Del Estado | 0,017 | 2.669 |
| Législateur Boe | 3.600 | 578,685 |
| Abogacía del Estado Boe | 0,037 | 6.123 |
| Consejo de Estado: Dictámenes | 0,827 | 135.348 |
| Eurlex espagnol | 0,001 | 0,072 |
| Résolutions des Nations Unies | 0,023 | 3.539 |
| Dogc espagnol | 0,826 | 132.569 |
| Multiun espagnol | 2.200 | 352.653 |
| Consultas tributarias générales y Vinculantes | 0,466 | 77.691 |
| Constución Española | 0,002 | 0,018 |
| COPPA Corpus de brevets | 0,002 | - |
| Brevets biomédicaux | 0,083 | - |
Vous pouvez former votre modèle pour différentes tâches en aval en utilisant les scripts que le visage étreint fournit (nom de reconnaissance d'entité, tâches de colle et autres)
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Si ce travail est utile, veuillez le citer:
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
? Nous sommes intéressés par (1) étendre nos corpus pour faire des modèles plus importants (2) évaluer / former le modèle dans d'autres tâches.
Pour des questions concernant ce travail, contactez [email protected]
Les modèles publiés dans ce référentiel sont destinés à un usage généraliste et sont disponibles pour des tiers. Ces modèles peuvent avoir un biais et / ou toute autre distorsion indésirable.
Lorsque des tiers, déploient ou fournissent des systèmes et / ou des services à d'autres parties en utilisant l'un de ces modèles (ou en utilisant des systèmes basés sur ces modèles) ou devenir des utilisateurs des modèles, ils doivent noter qu'il est de leur responsabilité d'atténuer les risques résultant de leur utilisation et, en tout état de cause, de respecter les réglementations applicables, y compris des réglementations concernant l'utilisation de l'intelligence artificielle.
En aucun cas, le propriétaire des modèles (Sedia - Secrétariat d'État pour la numérisation et l'intelligence artificielle) ne sera ni le Créateur (BSC - Barcelone Supercomputing Center) sera responsable de tout résultat résultant de l'utilisation faite par des tiers de ces modèles.
Los Modelsos publicados en este repositorio tiennen una finalidad généralista y están a disposcición de terceros. Estos Modelos Pueden Tener Sesgos y / u otro Tipo de Distorsiones Indesebles.
CUANDO TERCEROS DESPLIEGUEN O proporcionen Sistemas O / O Servicios A Otras Partes Usando Alguno de Estos Modelos (O Utilizando Sistemas Basados en Estos Modelos) O se coniertan en usuarios de los moditos, deben de la surin uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de Inteligencia artificiel.
En ningún Caso El ProPietario de los Models (Sedia - Secretaría de Estado de Digitalización E Intelicia Artificial) ni el Creador (BSC - Barcelone Supercomputing Center) Serán Responables de Los Resuldados Derivados del uso que hagan terceros de Estos Modèles.