Este repositorio contiene la página para dos recursos principales para el dominio legal español:
El repositorio y la preimpresión se actualizarán con modelos, evaluaciones, etc. más grandes.
Hay pocos modelos entrenados para el idioma español. Algunos de los modelos han sido capacitados con un bajo recurso, corporativos inmundos. Los derivados del plan nacional español para las tecnologías de idiomas son competentes para resolver varias tareas y han sido capacitados utilizando corpus limpios a gran escala. Sin embargo, el lenguaje de dominio legal español podría pensar en un idioma independiente por sí solo. Por lo tanto, creamos un modelo legal español desde cero capacitado exclusivamente en cuerpos legales.
Trabajo en progreso.
| Nombre del cuerpo | Tamaño (GB) | Tokens (M) |
|---|---|---|
| Procesos Penales | 0.625 | 0.119 |
| JRC adquirir | 0.345 | 59.359 |
| Códdigos Electónicos universitarios | 0.077 | 11.835 |
| Códdigos electrónicos | 0.080 | 12.237 |
| Doctrina de la fiscalía General Del Estado | 0.017 | 2.669 |
| Legislacia Boe | 3.600 | 578.685 |
| Abogacía del estado boe | 0.037 | 6.123 |
| Consejo de Estado: dictámenes | 0.827 | 135.348 |
| Eurlex español | 0.001 | 0.072 |
| Resoluciones de la ONU | 0.023 | 3.539 |
| Perra española | 0.826 | 132.569 |
| Multiun español | 2.200 | 352.653 |
| Consultas Tributarias Generales y Vinculantes | 0.466 | 77.691 |
| Constitucía Española | 0.002 | 0.018 |
| COPPA Patents Corpus | 0.002 | - |
| Patentes biomédicas | 0.083 | - |
Puede entrenar a su modelo para diferentes tareas aguas abajo utilizando los scripts que proporciona abrazar la cara (reconocimiento de entidad de nombre, tareas de pegamento y otros)
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Si este trabajo es útil, cíquelo:
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
? Estamos interesados en (1) extender nuestros corpus para hacer que los modelos más grandes (2) evalúen/entrenen el modelo en otras tareas.
Para preguntas sobre este trabajo, comuníquese con [email protected]
Los modelos publicados en este repositorio están destinados a un propósito generalista y están disponibles para terceros. Estos modelos pueden tener sesgo y/o cualquier otra distorsión indeseable.
Cuando terceros, implementan o proporcionan sistemas y/o servicios a otras partes utilizando cualquiera de estos modelos (o utilizando sistemas basados en estos modelos) o convertirse en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos que surgen de su uso y, en cualquier caso, cumplir con las regulaciones aplicables, incluidas las regulaciones sobre el uso de la inteligencia artificial.
En ningún caso, el propietario de los modelos (Sedia - Secretaría de Estado para la Digitalización y la Inteligencia Artificial) ni el Creador (BSC - Barcelona SuperComuting Center) será responsable de cualquier resultado derivado del uso realizado por terceros de estos modelos.
LOS MODELOS Publicados en este Repositorio Tienen una finalidad generalista y están una disposición de Terceros. ESTOS MODELOSO PUEDEN TENER SESGOS Y/U OTRO TUPO DE DISTORSIONES INDESEABLES.
Cuando Terceros Desplieguen o proporcionen Sistemas y/o Servicios a Otras Partes Usando USando Alguno de Estos Modelo (o utilizando sistemas basados en objetos) Y, en Todo Caso, Cumplir con la Normativa Aplicable, incluyendo la Normativa en Materia de Uso de Inteligencia Artificial.
En Ningún Cano El Propietario de Los Modelos (Sedia - Secretaría de Estado de Digitalización E Inteligencia Artificial) Ni El Creador (BSC - Centro de Supercomputación de Barcelona) Responsables de Serán de Los Resultados Derivados del Uso Que Hagan Terceros de Estos Modelo.