Un repositorio parte del proyecto Maria.
| Corp para | Número de documentos | Número de tokens | Tamaño (GB) |
|---|---|---|---|
| Bin | 201,080,084 | 135,733,450,668 | 570GB |
NUEVO ǎGUILA-7B: https://huggingface.co/proche-ina/aguila-7b
Un parámetros 7b LLM que ha sido entrenado en una mezcla de datos españoles, catalán e inglés, sumando a un total de tokens 26b. Utiliza el modelo Falcon-7B como punto de partida, un modelo de idioma inglés de última generación que fue lanzado abiertamente hace solo unos meses por el Instituto de Innovación Tecnológica. Leer más aquí
Roberta-Base BNE: https://huggingface.co/plantl-gob-es/roberta-base-bne
Roberta-Large BNE: https://huggingface.co/plantl-gob-es/roberta-large-bne
Modelos de idiomas enmascarados basados en transformadores para el idioma español. Se basan en el modelo Roberta Large y se han pretrados previamente utilizando el corpus español más grande conocido hasta la fecha, con un total de 570 GB de texto limpio y deduplicado procesado para este trabajo, compilado de los rastreos web realizados por la Biblioteca Nacional de España (Biblioteca Nacional de España) de 2009 a 2019.
Longformer-Base-4096-Bne-es: https://huggingface.co/plantl-gob-es/longformer-base-4096-bne-es
La versión Longformer del modelo de lenguaje enmascarado Roberta-Base-V2 para el lenguaje catalán. El uso de estos modelos nos permite procesar contextos más grandes (hasta 4096 tokens) como entrada sin la necesidad de estrategias de agregación adicionales. El proceso de previación previa de este modelo comenzó desde el punto de control Roberta-Base-CA-V2 y se puso en exceso para MLM en documentos cortos y largos en catalán.
Gpt2-base bne: https://huggingface.co/plantl-gob-es/gpt2-base-bne
GPT2-Large BNE: https://huggingface.co/plantl-gob-es/gpt2-large-bne
Modelo basado en transformadores para el idioma español. Se basan en el modelo GPT-2 y se han priorizado utilizando el corpus español más grande conocido hasta la fecha, con un total de 570 GB de texto limpio y deduplicado procesado para este trabajo, compilado de los rastreos web realizados por la Biblioteca Nacional de España (Biblioteca Nacional de España) de 2009 a 2019.
Consulte los resultados logrados en varias tareas a continuación. Vegeu Els resultan en OSCTINGUS EN Diverses Tasques Més Avall .
Para la base de Roberta
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Para el Roberta-Large
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Para una lista completa, consulte https://huggingface.co/plantl-gob-es
Modelos de lenguaje específicos del dominio:
Para una lista completa, consulte https://huggingface.co/plantl-gob-es
El punto de referencia Evales consta de 10 tareas: reconocimiento y clasificación de entidades nombradas (Conll-NERC y Capitel-NERC), etiquetado de parte de voz (UD-POS y Capitel-Pos), clasificación de texto (MLDOC), paráfrasis (Identificación de PAWS-X), similitud textual (STS), contestación de preguntas (sqac), textual Interailment (Xnli) y Massive.
| Conjunto de datos | Métrico | ROBERTA-B | Roberta-L | Beto* | mbert | Bertin ** | ElectriciDad *** |
|---|---|---|---|---|---|---|---|
| Mldoc | F1 | 0.9664 | 0.9702 | 0.9714 | 0.9617 | 0.9668 | 0.9565 |
| Cable | F1 | 0.8851 | 0.8823 | 0.8759 | 0.8691 | 0.8835 | 0.7954 |
| Capitel-ganador | F1 | 0.8960 | 0.9051 | 0.8772 | 0.8810 | 0.8856 | 0.8035 |
| Patas | F1 | 0.9020 | 0.9150 | 0.8930 | 0.9000 | 0.8965 | 0.9045 |
| Ud-pos | F1 | 0.9907 | 0.9904 | 0.9900 | 0.9886 | 0.9898 | 0.9818 |
| Cátel | F1 | 0.9846 | 0.9856 | 0.9836 | 0.9839 | 0.9847 | 0.9816 |
| SQAC | F1 | 0.7923 | 0.8202 | 0.7923 | 0.7562 | 0.7678 | 0.7383 |
| Sts | Conjunto | 0.8533 | 0.8411 | 0.8159 | 0.8164 | 0.7945 | 0.8063 |
| Xnli | Exactitud | 0.8016 | 0.8263 | 0.8130 | 0.7876 | 0.7890 | 0.7878 |
| Masivo | Exactitud | 0.8605 | 0.8722 | 0.8732 | 0.8504 | 0.8500 | 0.8517 |
* Un modelo basado en Bert Architecture.
** Un modelo basado en la arquitectura de Roberta.
*** Un modelo basado en la arquitectura Electra.
Para obtener más información, consulte https://benchmark.plantl.bsc.es/
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
? Estamos interesados en (1) extender nuestros corpus para hacer que los modelos más grandes (2) entrenen/evalúen el modelo en otras tareas.
Para preguntas sobre este trabajo, comuníquese con [email protected]
Los modelos publicados en este repositorio están destinados a un propósito generalista y están disponibles para terceros. Estos modelos pueden tener sesgo y/o cualquier otra distorsión indeseable.
Cuando terceros, implementan o proporcionan sistemas y/o servicios a otras partes utilizando cualquiera de estos modelos (o utilizando sistemas basados en estos modelos) o convertirse en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos que surgen de su uso y, en cualquier caso, cumplir con las regulaciones aplicables, incluidas las regulaciones sobre el uso de la inteligencia artificial.
En ningún caso, el propietario de los modelos (Sedia - Secretaría de Estado para la Digitalización y la Inteligencia Artificial) ni el Creador (BSC - Barcelona SuperComuting Center) será responsable de cualquier resultado derivado del uso realizado por terceros de estos modelos.
LOS MODELOS Publicados en este Repositorio Tienen una finalidad generalista y están una disposición de Terceros. ESTOS MODELOSO PUEDEN TENER SESGOS Y/U OTRO TUPO DE DISTORSIONES INDESEABLES.
Cuando Terceros Desplieguen o proporcionen Sistemas y/o Servicios a Otras Partes Usando USando Alguno de Estos Modelo (o utilizando sistemas basados en objetos) Y, en Todo Caso, Cumplir con la Normativa Aplicable, incluyendo la Normativa en Materia de Uso de Inteligencia Artificial.
En Ningún Cano El Propietario de Los Modelos (Sedia - Secretaría de Estado de Digitalización E Inteligencia Artificial) Ni El Creador (BSC - Centro de Supercomputación de Barcelona) Responsables de Serán de Los Resultados Derivados del Uso Que Hagan Terceros de Estos Modelo.