Dieses Repository enthält die Seite für zwei Hauptressourcen für den spanischen Rechtsbereich:
Das Repository und der Vordruck werden mit größeren Modellen, Bewertungen usw. aktualisiert.
Es gibt nur wenige Modelle, die für die spanische Sprache ausgebildet sind. Einige der Modelle wurden mit einer geringen Ressource, unreinen Korpora, geschult. Diejenigen, die aus dem spanischen Nationalen Plan für Sprachtechnologien abgeleitet wurden, sind eine kompetente Lösung mehrerer Aufgaben und wurden mit großen, sauberen Korpora geschult. Die spanische Sprache der rechtlichen Domänen könnte jedoch eine unabhängige Sprache für sich genommen sein. Wir haben daher von Grund auf ein spanisches Rechtsmodell erstellt, das ausschließlich auf rechtliche Korpora geschult wurde.
In Arbeit arbeiten.
| Korpusname | Größe (GB) | Token (m) |
|---|---|---|
| Procesos -Strafe | 0,625 | 0,119 |
| JRC Acquis | 0,345 | 59.359 |
| Códigos Electrónicos Universitarios | 0,077 | 11.835 |
| Códigos Electrónicos | 0,080 | 12.237 |
| Doctrina de la Fiscalía General Del Estado | 0,017 | 2.669 |
| Legislación Boe | 3.600 | 578.685 |
| Abogacía del Estado Boe | 0,037 | 6.123 |
| Consejo de Estado: Dictámenes | 0,827 | 135.348 |
| Spanischer Eurlex | 0,001 | 0,072 |
| UN -Auflösungen | 0,023 | 3.539 |
| Spanischer Dogc | 0,826 | 132.569 |
| Spanischer Multiun | 2.200 | 352.653 |
| Consultas Tributarias Generales y Vinculantes | 0,466 | 77.691 |
| Constitución Española | 0,002 | 0,018 |
| Coppa Patents Corpus | 0,002 | - - |
| Biomedizinische Patente | 0,083 | - - |
Sie können Ihr Modell für verschiedene nachgeschaltete Aufgaben mit den Skripten trainieren, die das Umarmungsgesicht bietet (Namenserkennung, Kleberaufgaben und andere).
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Wenn diese Arbeit hilfreich ist, zitieren Sie sie bitte:
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
? Wir sind daran interessiert, (1) unsere Korpora zu erweitern, um größere Modelle (2) das Modell in anderen Aufgaben zu bewerten/auszubilden.
Für Fragen zu dieser Arbeit wenden Sie sich an [email protected]
Die in diesem Repository veröffentlichten Modelle sind für einen Generalistenzweck bestimmt und stehen Dritten zur Verfügung. Diese Modelle können Voreingenommenheit und/oder andere unerwünschte Verzerrungen aufweisen.
Wenn Dritte, Bereitstellung oder Bereitstellung von Systemen und/oder Diensten für andere Parteien mithilfe eines dieser Modelle (oder mit Systemen basierend auf diesen Modellen) oder Nutzern der Modelle werden, sollten sie feststellen, dass es in ihrer Verantwortung liegt, die Risiken, die sich aus ihrer Verwendung ergeben, und in jedem Fall die geltenden Vorschriften, einschließlich Vorschriften für die Nutzung der künstlichen Intelligenz, einzuhalten.
In keiner Veranstaltung darf der Eigentümer der Modelle (Sedia - Staatssekretariat für Digitalisierung und künstliche Intelligenz) noch der Schöpfer (BSC - Barcelona Supercomputing Center) für die Ergebnisse haften, die sich aus der Verwendung von Dritten dieser Modelle ergeben.
Los modelos publicados en este repositorio tienen una Finalidad Generalista y están a Disposición de terceros. Estos modelos pudenen tener sesgos y/u otro tipo de entrytorsiones Inseavables.
Cuando terceros desplieguen o Proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se Conviertan en uusuarios de los modelos, Deben Tener de cuenta de de de cuenta uenta uenta que es su su su su USO Y, En Todo Caso, Cumplir con la normativa günstig, inkluyendo la normativa en materia de uso de Inteligencia künstlich.
En Ningún Caso El Propietario de los modelos (Sedia - Sekretara de Estado de Digitalización e Inteligencia künstlich) Ni El Creador (BSC - Barcelona Supercomputing Center) Serán Responseables de los resultados Derivados del uso que hagan terceros de estos modelos modelos modelos modelos modelos modelos modelos modelos modelos