Descargar lm legal es - Descargar el código fuente lm legal es

lm legal es

Código Fuente de IA

1.0.0

Descargar

Modelo de lenguaje de dominio legal español ⚖️

Este repositorio contiene la página para dos recursos principales para el dominio legal español:

Un modelo de Roberta: https://huggingface.co/plantl-gob-es/robertalex
FastText Increddings: https://zenodo.org/record/5036147
Corporación legal: https://zenodo.org/record/5495529

El repositorio y la preimpresión se actualizarán con modelos, evaluaciones, etc. más grandes.

Por que❓

Hay pocos modelos entrenados para el idioma español. Algunos de los modelos han sido capacitados con un bajo recurso, corporativos inmundos. Los derivados del plan nacional español para las tecnologías de idiomas son competentes para resolver varias tareas y han sido capacitados utilizando corpus limpios a gran escala. Sin embargo, el lenguaje de dominio legal español podría pensar en un idioma independiente por sí solo. Por lo tanto, creamos un modelo legal español desde cero capacitado exclusivamente en cuerpos legales.

Evaluación ✅

Trabajo en progreso.

Corpanos?

Nombre del cuerpo	Tamaño (GB)	Tokens (M)
Procesos Penales	0.625	0.119
JRC adquirir	0.345	59.359
Códdigos Electónicos universitarios	0.077	11.835
Códdigos electrónicos	0.080	12.237
Doctrina de la fiscalía General Del Estado	0.017	2.669
Legislacia Boe	3.600	578.685
Abogacía del estado boe	0.037	6.123
Consejo de Estado: dictámenes	0.827	135.348
Eurlex español	0.001	0.072
Resoluciones de la ONU	0.023	3.539
Perra española	0.826	132.569
Multiun español	2.200	352.653
Consultas Tributarias Generales y Vinculantes	0.466	77.691
Constitucía Española	0.002	0.018
COPPA Patents Corpus	0.002	-
Patentes biomédicas	0.083	-

Ejemplo de uso ⚗️

Puede entrenar a su modelo para diferentes tareas aguas abajo utilizando los scripts que proporciona abrazar la cara (reconocimiento de entidad de nombre, tareas de pegamento y otros)

 from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])

Citar

Si este trabajo es útil, cíquelo:

 @misc{gutierrezfandino2021legal,
      title={Spanish Legalese Language Model and Corpora}, 
      author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
      year={2021},
      eprint={2110.12201},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Contacto ?

? Estamos interesados en (1) extender nuestros corpus para hacer que los modelos más grandes (2) evalúen/entrenen el modelo en otras tareas.

Para preguntas sobre este trabajo, comuníquese con [email protected]

Descargo de responsabilidad

Los modelos publicados en este repositorio están destinados a un propósito generalista y están disponibles para terceros. Estos modelos pueden tener sesgo y/o cualquier otra distorsión indeseable.

Cuando terceros, implementan o proporcionan sistemas y/o servicios a otras partes utilizando cualquiera de estos modelos (o utilizando sistemas basados en estos modelos) o convertirse en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos que surgen de su uso y, en cualquier caso, cumplir con las regulaciones aplicables, incluidas las regulaciones sobre el uso de la inteligencia artificial.

En ningún caso, el propietario de los modelos (Sedia - Secretaría de Estado para la Digitalización y la Inteligencia Artificial) ni el Creador (BSC - Barcelona SuperComuting Center) será responsable de cualquier resultado derivado del uso realizado por terceros de estos modelos.

LOS MODELOS Publicados en este Repositorio Tienen una finalidad generalista y están una disposición de Terceros. ESTOS MODELOSO PUEDEN TENER SESGOS Y/U OTRO TUPO DE DISTORSIONES INDESEABLES.

Cuando Terceros Desplieguen o proporcionen Sistemas y/o Servicios a Otras Partes Usando USando Alguno de Estos Modelo (o utilizando sistemas basados en objetos) Y, en Todo Caso, Cumplir con la Normativa Aplicable, incluyendo la Normativa en Materia de Uso de Inteligencia Artificial.

En Ningún Cano El Propietario de Los Modelos (Sedia - Secretaría de Estado de Digitalización E Inteligencia Artificial) Ni El Creador (BSC - Centro de Supercomputación de Barcelona) Responsables de Serán de Los Resultados Derivados del Uso Que Hagan Terceros de Estos Modelo.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-07
tamaño 6.71KB
Proviene de Github

Aplicaciones relacionadas

ESTERRA ES

2024-09-01
Aplicación ES-Every Day Habit

2024-06-29
ES Película de mantenimiento versión gratuita

2024-02-11
administrador de archivos es

2023-05-06
LM confesión en línea producción de página web Código fuente PHP versión embellecida versión oficial

2022-11-01
Mazmorra Legal

2022-09-04

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo