Une partie du référentiel du projet Maria.
| Corpus | Nombre de documents | Nombre de jetons | Taille (GB) |
|---|---|---|---|
| Bne | 201 080 084 | 135 733 450 668 | 570 Go |
NOUVEAU ǎGUILA-7B: https://huggingface.co/projecte-aina/aguila-7b
Un 7B Paramètres LLM qui a été formé sur un mélange de données espagnoles, catalanes et anglaises, ajoutant à un total de 26B. Il utilise le modèle Falcon-7B comme point de départ, un modèle de langue anglaise de pointe qui a été publié ouvertement il y a quelques mois à peine par le Technology Innovation Institute. Lire la suite ici
Roberta-Base Bne: https://huggingface.co/plantl-gob-es/roberta-base-bne
Roberta-Large Bne: https://huggingface.co/plantl-gob-es/roberta-large-bne
Modèles de langue masqués à base de transformateurs pour la langue espagnole. Ils sont basés sur le modèle de Roberta et ont été formés en utilisant le plus grand corpus espagnol connu à ce jour, avec un total de 570 Go de texte propre et dédupliqué traité pour ce travail, compilé à partir des crawlings Web effectués par la Bibliothèque nationale d'Espagne (Biblioteca Nacional de España) de 2009 à 2019.
LongFormer-Base-4096-Bne-es: https://huggingface.co/plantl-gob-es/longformère-base-4096-bne-es
La version LongFormer du modèle de langage masqué Roberta-Base-CA-V2 pour la langue catalane. L'utilisation de ces modèles nous permet de traiter des contextes plus importants (jusqu'à 4096 jetons) en entrée sans avoir besoin de stratégies d'agrégation supplémentaires. Le processus de pré-formation de ce modèle est parti du point de contrôle Roberta-Base-CA-V2 et a été pré-entraîné pour MLM sur des documents courts et longs en catalan.
GPT2-BASE BNE: https://huggingface.co/plantl-gob-es/gpt2-base-bne
GPT2-LARGE BNE: https://huggingface.co/plantl-gob-es/gpt2-large-bne
Modèle basé sur le transformateur pour la langue espagnole. Ils sont basés sur le modèle GPT-2 et ont été formés en utilisant le plus grand corpus espagnol connu à ce jour, avec un total de 570 Go de texte propre et dédupliqué traité pour ce travail, compilé à partir des chapelets Web effectués par la Bibliothèque nationale d'Espagne (Biblioteca Nacional de España) de 2009 à 2019.
Voir les résultats obtenus sur plusieurs tâches ci-dessous. Vegeu els Resultats Obtinguts en divers diverses tasques Més Avall .
Pour la base de Roberta
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Pour le roberta-grand
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Pour une liste complète, reportez-vous à https://huggingface.co/plantl-gob-es
Modèles linguistiques spécifiques au domaine:
Pour une liste complète, reportez-vous à https://huggingface.co/plantl-gob-es
L'évaluation de référence se compose de 10 tâches: la reconnaissance et la classification des entités nommées (conll-nerc et capitel-nerc), le marquage d'une partie du discours (UD-POS et Capitel-POS), la classification du texte (MLDOC), l'identification paraphrase (PAWS-X), la similitude textuelle sémantique (STS), la réponse aux mises en doute (SQAC), les entrées textuelles (XNLI) et les masseurs (SQAC), les entrées textuelles (XNLI) et la masse.
| Ensemble de données | Métrique | Roberta-b | Roberta-l | Beto * | Mbert | Bertin ** | Electricidad *** |
|---|---|---|---|---|---|---|---|
| MLDOC | F1 | 0,9664 | 0,9702 | 0,9714 | 0,9617 | 0,9668 | 0,9565 |
| Sable | F1 | 0,8851 | 0,8823 | 0,8759 | 0,8691 | 0,8835 | 0,7954 |
| Capitel-nerc | F1 | 0,8960 | 0,9051 | 0,8772 | 0,8810 | 0,8856 | 0,8035 |
| PAWS-X | F1 | 0,9020 | 0,9150 | 0,8930 | 0,9000 | 0,8965 | 0,9045 |
| UD-POS | F1 | 0,9907 | 0,9904 | 0.9900 | 0,9886 | 0,9898 | 0,9818 |
| Capitel-po | F1 | 0,9846 | 0,9856 | 0,9836 | 0,9839 | 0,9847 | 0,9816 |
| SQAC | F1 | 0,7923 | 0,8202 | 0,7923 | 0,7562 | 0,7678 | 0,7383 |
| STS | Combiné | 0,8533 | 0,8411 | 0,8159 | 0,8164 | 0,7945 | 0,8063 |
| Xnli | Précision | 0,8016 | 0,8263 | 0,8130 | 0,7876 | 0,7890 | 0,7878 |
| Massif | Précision | 0,8605 | 0,8722 | 0,8732 | 0,8504 | 0,8500 | 0,8517 |
* Un modèle basé sur l'architecture Bert.
** Un modèle basé sur l'architecture Roberta.
*** Un modèle basé sur l'architecture Electra.
Pour plus d'informations, reportez-vous à https://benchmark.plantl.bsc.es/
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
? Nous sommes intéressés par (1) étendre nos corpus pour créer des modèles plus importants (2) former / évaluer le modèle dans d'autres tâches.
Pour des questions concernant ce travail, contactez [email protected]
Les modèles publiés dans ce référentiel sont destinés à un usage généraliste et sont disponibles pour des tiers. Ces modèles peuvent avoir un biais et / ou toute autre distorsion indésirable.
Lorsque des tiers, déploient ou fournissent des systèmes et / ou des services à d'autres parties en utilisant l'un de ces modèles (ou en utilisant des systèmes basés sur ces modèles) ou devenir des utilisateurs des modèles, ils doivent noter qu'il est de leur responsabilité d'atténuer les risques résultant de leur utilisation et, en tout état de cause, de respecter les réglementations applicables, y compris des réglementations concernant l'utilisation de l'intelligence artificielle.
En aucun cas, le propriétaire des modèles (Sedia - Secrétariat d'État pour la numérisation et l'intelligence artificielle) ne sera ni le Créateur (BSC - Barcelone Supercomputing Center) sera responsable de tout résultat résultant de l'utilisation faite par des tiers de ces modèles.
Los Modelsos publicados en este repositorio tiennen una finalidad généralista y están a disposcición de terceros. Estos Modelos Pueden Tener Sesgos y / u otro Tipo de Distorsiones Indesebles.
CUANDO TERCEROS DESPLIEGUEN O proporcionen Sistemas O / O Servicios A Otras Partes Usando Alguno de Estos Modelos (O Utilizando Sistemas Basados en Estos Modelos) O se coniertan en usuarios de los moditos, deben de la surin uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de Inteligencia artificiel.
En ningún Caso El ProPietario de los Models (Sedia - Secretaría de Estado de Digitalización E Intelicia Artificial) ni el Creador (BSC - Barcelone Supercomputing Center) Serán Responables de Los Resuldados Derivados del uso que hagan terceros de Estos Modèles.