lm legal es Téléchargement - lm legal es Source Code Download

lm legal es

Code Source AI

1.0.0

Télécharger

Modèle de langue du domaine juridique espagnol ⚖️

Ce référentiel contient la page pour deux ressources principales pour le domaine juridique espagnol:

Un modèle Roberta: https://huggingface.co/plantl-gob-es/robertalex
FastText Embeddings: https://zenodo.org/record/5036147
Corparèmes juridiques: https://zenodo.org/record/5495529

Le référentiel et la pré-impression seront mis à jour avec des modèles plus grands, des évaluations, etc.

Pourquoi

Il existe peu de modèles formés pour la langue espagnole. Certains modèles ont été formés avec une faible ressource et des corpus impurs. Ceux dérivés du plan national espagnol des technologies linguistiques sont compétents en résolvant plusieurs tâches et ont été formés à l'aide de corpus propres à grande échelle. Cependant, la langue du domaine juridique espagnol pourrait être de penser à une langue indépendante à elle seule. Nous avons donc créé un modèle juridique espagnol à partir de zéro formé exclusivement sur les corpus juridiques.

Évaluation ✅

Travail en cours.

Corpus?

Nom du corpus	Taille (GB)	Jetons (m)
Procesos pénales	0,625	0,119
JRC acquis	0,345	59.359
Códigos Electrónicos Universitarios	0,077	11.835
Códigos Electrónicos	0,080	12.237
Doctrina de la Fiscalía General Del Estado	0,017	2.669
Législateur Boe	3.600	578,685
Abogacía del Estado Boe	0,037	6.123
Consejo de Estado: Dictámenes	0,827	135.348
Eurlex espagnol	0,001	0,072
Résolutions des Nations Unies	0,023	3.539
Dogc espagnol	0,826	132.569
Multiun espagnol	2.200	352.653
Consultas tributarias générales y Vinculantes	0,466	77.691
Constución Española	0,002	0,018
COPPA Corpus de brevets	0,002	-
Brevets biomédicaux	0,083	-

Exemple d'utilisation ⚗️

Vous pouvez former votre modèle pour différentes tâches en aval en utilisant les scripts que le visage étreint fournit (nom de reconnaissance d'entité, tâches de colle et autres)

 from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])

Citer

Si ce travail est utile, veuillez le citer:

 @misc{gutierrezfandino2021legal,
      title={Spanish Legalese Language Model and Corpora}, 
      author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
      year={2021},
      eprint={2110.12201},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Contact ?

? Nous sommes intéressés par (1) étendre nos corpus pour faire des modèles plus importants (2) évaluer / former le modèle dans d'autres tâches.

Pour des questions concernant ce travail, contactez [email protected]

Clause de non-responsabilité

Les modèles publiés dans ce référentiel sont destinés à un usage généraliste et sont disponibles pour des tiers. Ces modèles peuvent avoir un biais et / ou toute autre distorsion indésirable.

Lorsque des tiers, déploient ou fournissent des systèmes et / ou des services à d'autres parties en utilisant l'un de ces modèles (ou en utilisant des systèmes basés sur ces modèles) ou devenir des utilisateurs des modèles, ils doivent noter qu'il est de leur responsabilité d'atténuer les risques résultant de leur utilisation et, en tout état de cause, de respecter les réglementations applicables, y compris des réglementations concernant l'utilisation de l'intelligence artificielle.

En aucun cas, le propriétaire des modèles (Sedia - Secrétariat d'État pour la numérisation et l'intelligence artificielle) ne sera ni le Créateur (BSC - Barcelone Supercomputing Center) sera responsable de tout résultat résultant de l'utilisation faite par des tiers de ces modèles.

Los Modelsos publicados en este repositorio tiennen una finalidad généralista y están a disposcición de terceros. Estos Modelos Pueden Tener Sesgos y / u otro Tipo de Distorsiones Indesebles.

CUANDO TERCEROS DESPLIEGUEN O proporcionen Sistemas O / O Servicios A Otras Partes Usando Alguno de Estos Modelos (O Utilizando Sistemas Basados en Estos Modelos) O se coniertan en usuarios de los moditos, deben de la surin uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de Inteligencia artificiel.

En ningún Caso El ProPietario de los Models (Sedia - Secretaría de Estado de Digitalización E Intelicia Artificial) ni el Creador (BSC - Barcelone Supercomputing Center) Serán Responables de Los Resuldados Derivados del uso que hagan terceros de Estos Modèles.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-07
taille 6.71KB
Provenant de Github

Applications connexes

STERRA ES

2024-09-01
Application ES-Every Day Habit

2024-06-29
Version gratuite du film ES Maintenance

2024-02-11
es gestionnaire de fichiers

2023-05-06
Production de pages Web de confession en ligne LM Code source PHP version embellie version officielle

2022-11-01
Donjon juridique

2022-09-04

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout