Este repositório contém a página para dois recursos principais para o domínio legal espanhol:
O repositório e a pré-impressão serão atualizados com modelos maiores, avaliações, etc.
Existem poucos modelos treinados para o idioma espanhol. Alguns dos modelos foram treinados com um recurso baixo e corporativo imundo. Os derivados do plano nacional espanhol para tecnologias de idiomas são proficientes para resolver várias tarefas e foram treinados usando corpora limpa em larga escala. No entanto, o idioma espanhol de domínio legal pode pensar em um idioma independente por conta própria. Portanto, criamos um modelo legal espanhol do zero treinado exclusivamente em corpora legal.
Trabalho em andamento.
| Nome do corpus | Tamanho (GB) | Tokens (M) |
|---|---|---|
| Procesos Penales | 0,625 | 0,119 |
| JRC ACCIS | 0,345 | 59.359 |
| Códos Electronicos Universitarios | 0,077 | 11.835 |
| Códos Electronicos | 0,080 | 12.237 |
| Doutrina de la fiscalía general del Estado | 0,017 | 2.669 |
| Legislación Boe | 3.600 | 578.685 |
| ABOGACÍA del Estado Boe | 0,037 | 6.123 |
| Consejo de Estado: Dictámenos | 0,827 | 135.348 |
| Eurlex espanhol | 0,001 | 0,072 |
| Resoluções da ONU | 0,023 | 3.539 |
| Dogc espanhol | 0,826 | 132.569 |
| Multiun espanhol | 2.200 | 352.653 |
| Consultas tributários generales y vinculantes | 0,466 | 77.691 |
| Constitución Española | 0,002 | 0,018 |
| Coppa patentes corpus | 0,002 | - |
| Patentes biomédicas | 0,083 | - |
Você pode treinar seu modelo para diferentes tarefas a jusante usando os scripts que o Hugging Face fornece (reconhecimento de entidade, tarefas de cola e outros)
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Se este trabalho for útil, cite -o:
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
? Estamos interessados em (1) estender nossa corporação para fazer com que modelos maiores (2) avaliem/treinem o modelo em outras tarefas.
Para perguntas sobre este trabalho, entre em contato com [email protected]
Os modelos publicados neste repositório destinam -se a fins generalistas e estão disponíveis para terceiros. Esses modelos podem ter viés e/ou quaisquer outras distorções indesejáveis.
Quando terceiros, implante ou forneça sistemas e/ou serviços a outras partes usando qualquer um desses modelos (ou usando sistemas com base nesses modelos) ou se tornam usuários dos modelos, eles devem observar que é sua responsabilidade mitigar os riscos decorrentes de seu uso e, em qualquer caso, para cumprir os regulamentos aplicáveis, incluindo regulamentos relativos ao uso da inteligência artificial.
Em nenhum caso o proprietário dos modelos (Sedia - Secretariado do Estado de Digitalização e Inteligência Artificial) nem o Centro de Supercomputação do Criador (BSC - Barcelona) será responsável por quaisquer resultados decorrentes do uso feito por terceiros desses modelos.
Los Modelos Publicados en Este repositorio tienen una Finalidad generalista y Están A Dispossición de Terceros. Estos modelos pueden tener sesgos y/u otro topo de distorsions indesaberáveis.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su Uso y, pt TODO Caso, Cumplir con la normativa applicable, incluyendo la normative en Materia de Uso de Inteligência Artificial.
Enningún Caso el ProPietario de Los Modelos (Sedia - Secretaría de Estado de Digitalizan e Inteligência Artificial) Ni El Creador (BSc - Barcelona Supercomputing Center) Serán Responsable De Los Resultados Derivados del Uso Uso Que Hagan Terceros de Estas Modelos Modelos.