Ein Repository -Teil des Maria -Projekts.
| Korpora | Anzahl der Dokumente | Anzahl der Token | Größe (GB) |
|---|---|---|---|
| BNE | 201.080.084 | 135.733.450.668 | 570 GB |
NEU ǎGuila-7b: https://huggingface.co/projecte-aina/aguila-7b
Ein 7B -Parameter LLM, das auf einer Mischung aus spanischen, katalanischen und englischen Daten ausgebildet wurde und zu insgesamt 26B -Token addiert. Es verwendet das Falcon-7b-Modell als Ausgangspunkt, ein hochmodernes englischsprachiges Modell, das vor wenigen Monaten vom Technology Innovation Institute offen veröffentlicht wurde. Lesen Sie hier mehr
Roberta-Base BNE: https://huggingface.co/plantl-gob-es/roberta-base-bne
Roberta-large BNE: https://huggingface.co/plantl-gob-es/roberta-large-bne
Transformator-basierte maskierte Sprachmodelle für die spanische Sprache. Sie basieren auf dem Roberta Large-Modell und wurden mit dem bisher größten spanischen Korpus vorgebracht, wobei insgesamt 570 GB sauberer und deduplizierter Text für diese Arbeit verarbeitet wurden, die von den von der Nationalbibliothek von Spanien (Biblioteca Nacional de España) durchgeführten Web-Crawlings von 2009 bis 2019 zusammengestellt wurden.
Longformer-Base-4096-BNE-es: https://huggingface.co/plantl-gob-es/longformer-base-4096-bne-es
Die Longformer-Version des Roberta-Base-CA-V2 maskierten Sprachmodells für die katalanische Sprache. Die Verwendung dieser Modelle ermöglicht es uns, größere Kontexte (bis zu 4096 Token) als Eingabe zu verarbeiten, ohne dass zusätzliche Aggregationsstrategien erforderlich sind. Der Vorbereitungsverfahren dieses Modells begann vom Roberta-Base-CA-V2-Kontrollpunkt und wurde sowohl für Kurz- als auch für lange Dokumente im Katalanisch für MLM vorgebracht.
GPT2-Base BNE: https://huggingface.co/plantl-gob-es/gpt2-base-bne
Gpt2-large bne: https://huggingface.co/plantl-gob-es/gpt2-large-bne
Transformator-basiertes Modell für die spanische Sprache. Sie basieren auf dem GPT-2-Modell und wurden unter Verwendung des bisher größten spanischen Korpus mit insgesamt 570 GB sauberem und dedupliziertem Text für dieses Arbeiten aus den von der Nationalbibliothek von Spanien (Biblioteca Nacional de Spaña) von 2009 bis 2019 durchgeführten Web-Crawlings-Text vorgebracht.
Siehe Ergebnisse bei mehreren Aufgaben unten. Vegeu Els ergebnis OBINGUTS EN DIVERESS TASQUES Més avall .
Für die Roberta-Base
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Für den Roberta-Large
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Eine vollständige Liste finden Sie unter https://huggingface.co/plantl-gob-es
Domänenspezifische Sprachmodelle:
Eine vollständige Liste finden Sie unter https://huggingface.co/plantl-gob-es
Der Bewertungs-Benchmark besteht aus 10 Aufgaben: genannte Entitätserkennung und -klassifizierung (conll-nerc und capitel-nernc), Teil des Speech-Tagging (UD-Pos und Capitel-Pos), Textklassifizierung (MLDOC), Paraphrase-Identifizierung (PAWS-X), Semantic-Ähnlichkeit (STSS), Fragen und Massive (STS), Fragen und Beantwortung von SQAC).
| Datensatz | Metrisch | Roberta-B | Roberta-L | Beto* | Mbert | Bertin ** | Electricidad *** |
|---|---|---|---|---|---|---|---|
| Mldoc | F1 | 0,9664 | 0,9702 | 0,9714 | 0,9617 | 0,9668 | 0,9565 |
| Conll-nerv | F1 | 0,8851 | 0,8823 | 0,8759 | 0,8691 | 0,8835 | 0,7954 |
| Kapitel-nerv | F1 | 0,8960 | 0,9051 | 0,8772 | 0,8810 | 0,8856 | 0,8035 |
| Pfoten-x | F1 | 0,9020 | 0,9150 | 0,8930 | 0,9000 | 0,8965 | 0,9045 |
| Ud-pos | F1 | 0,9907 | 0,9904 | 0,9900 | 0,9886 | 0,9898 | 0,9818 |
| Kapitel-Pos | F1 | 0,9846 | 0,9856 | 0,9836 | 0,9839 | 0,9847 | 0,9816 |
| SQAC | F1 | 0,7923 | 0,8202 | 0,7923 | 0,7562 | 0,7678 | 0,7383 |
| Sts | Kombiniert | 0,8533 | 0,8411 | 0,8159 | 0,8164 | 0,7945 | 0,8063 |
| Xnli | Genauigkeit | 0,8016 | 0,8263 | 0,8130 | 0,7876 | 0,7890 | 0,7878 |
| Massiv | Genauigkeit | 0,8605 | 0,8722 | 0,8732 | 0,8504 | 0,8500 | 0,8517 |
* Ein Modell, das auf Bert -Architektur basiert.
** Ein Modell, das auf Roberta Architecture basiert.
*** Ein Modell, das auf Electra Architecture basiert.
Weitere Informationen finden Sie unter https://benchmark.plantl.bsc.es/
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
? Wir sind daran interessiert, (1) unsere Korpora zu erweitern, um größere Modelle (2) das Modell in anderen Aufgaben zu trainieren/zu bewerten.
Für Fragen zu dieser Arbeit wenden Sie sich an [email protected]
Die in diesem Repository veröffentlichten Modelle sind für einen Generalistenzweck bestimmt und stehen Dritten zur Verfügung. Diese Modelle können Voreingenommenheit und/oder andere unerwünschte Verzerrungen aufweisen.
Wenn Dritte, Bereitstellung oder Bereitstellung von Systemen und/oder Diensten für andere Parteien mithilfe eines dieser Modelle (oder mit Systemen basierend auf diesen Modellen) oder Nutzern der Modelle werden, sollten sie feststellen, dass es in ihrer Verantwortung liegt, die Risiken, die sich aus ihrer Verwendung ergeben, und in jedem Fall die geltenden Vorschriften, einschließlich Vorschriften für die Nutzung der künstlichen Intelligenz, einzuhalten.
In keiner Veranstaltung darf der Eigentümer der Modelle (Sedia - Staatssekretariat für Digitalisierung und künstliche Intelligenz) noch der Schöpfer (BSC - Barcelona Supercomputing Center) für die Ergebnisse haften, die sich aus der Verwendung von Dritten dieser Modelle ergeben.
Los modelos publicados en este repositorio tienen una Finalidad Generalista y están a Disposición de terceros. Estos modelos pudenen tener sesgos y/u otro tipo de entrytorsiones Inseavables.
Cuando terceros desplieguen o Proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se Conviertan en uusuarios de los modelos, Deben Tener de cuenta de de de cuenta uenta uenta que es su su su su USO Y, En Todo Caso, Cumplir con la normativa günstig, inkluyendo la normativa en materia de uso de Inteligencia künstlich.
En Ningún Caso El Propietario de los modelos (Sedia - Sekretara de Estado de Digitalización e Inteligencia künstlich) Ni El Creador (BSC - Barcelona Supercomputing Center) Serán Responseables de los resultados Derivados del uso que hagan terceros de estos modelos modelos modelos modelos modelos modelos modelos modelos modelos