Uma parte repositória do projeto Maria.
| Corpora | Número de documentos | Número de tokens | Tamanho (GB) |
|---|---|---|---|
| BNE | 201.080.084 | 135.733.450.668 | 570 GB |
novo ǎguila-7b: https://huggingface.co/projete-aina/aguila-7b
Um 7B Parâmetros LLM que foi treinado em uma mistura de dados espanhóis, catalães e ingleses, somando um total de 26b tokens. Ele usa o modelo Falcon-7b como ponto de partida, um modelo de língua inglesa de última geração que foi lançada abertamente há alguns meses pelo Instituto de Inovação Tecnológica. Leia mais aqui
Roberta-Base BNE: https://huggingface.co/plantl-gob-es/roberta-base-bne
Roberta-Large BNE: https://huggingface.co/plantl-gob-es/roberta-large-bne
Modelos de idiomas mascarados baseados em transformadores para o idioma espanhol. Eles são baseados no modelo Roberta Large e foram pré-treinados usando o maior corpus espanhol conhecido até o momento, com um total de 570 GB de texto limpo e deduplicado processado para este trabalho, compilado a partir dos rastreamentos da Web realizados pela Biblioteca Nacional da Espanha (Biblioteca Nacional de España) de 2009 a 2019.
Longformer-Base-4096-bne-es: https://huggingface.co/plantl-gob-es/longformer-base-4096-bne-es
A versão longformer do modelo de linguagem mascarado Roberta-Base-CA-V2 para o idioma catalão. O uso desses modelos nos permite processar contextos maiores (até 4096 tokens) como entrada sem a necessidade de estratégias de agregação adicionais. O processo de pré-treinamento desse modelo começou no ponto de verificação Roberta-Base-CA-V2 e foi pré-treinado para MLM em documentos curtos e longos no catalão.
GPT2-BASE BNE: https://huggingface.co/plantl-gob-es/gpt2-base-bne
GPT2-Large BNE: https://huggingface.co/plantl-gob-es/gpt2-large-bne
Modelo baseado em transformadores para o idioma espanhol. Eles são baseados no modelo GPT-2 e foram pré-treinados usando o maior corpus espanhol conhecido até o momento, com um total de 570 GB de texto limpo e deduplicado processado para este trabalho, compilado a partir dos rastreamentos da Web realizada pela Biblioteca Nacional da Espanha (Biblioteca Nacional de España) de 2009 a 2019.
Veja os resultados alcançados em várias tarefas abaixo. Vegeu els resulta obtinguts en diversos tasques Més Avall .
Para a base de Roberta
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Para o Roberta-Large
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Para uma lista completa, consulte https://huggingface.co/plantl-gob-es
Modelos de idiomas específicos de domínio:
Para uma lista completa, consulte https://huggingface.co/plantl-gob-es
The EvalES benchmark consists of 10 tasks: Named Entity Recognition and Classification (CoNLL-NERC and CAPITEL-NERC), Part-of-Speech Tagging (UD-POS and CAPITEL-POS ), Text Classification (MLDoc), Paraphrase Identification (PAWS-X), Semantic Textual Similarity (STS), Question Answering (SQAC), Textual Entailment (XNLI) and Massive.
| Conjunto de dados | Métrica | Roberta-B | Roberta-l | BETO* | Mbert | Bertin ** | Electricidad *** |
|---|---|---|---|---|---|---|---|
| Mldoc | F1 | 0,9664 | 0,9702 | 0,9714 | 0,9617 | 0,9668 | 0,9565 |
| Conll-Enerc | F1 | 0,8851 | 0,8823 | 0,8759 | 0,8691 | 0,8835 | 0,7954 |
| Capitel-Enerc | F1 | 0,8960 | 0,9051 | 0,8772 | 0,8810 | 0,8856 | 0,8035 |
| PAWS-X | F1 | 0,9020 | 0,9150 | 0,8930 | 0,9000 | 0,8965 | 0,9045 |
| UD-POS | F1 | 0,9907 | 0,9904 | 0,9900 | 0,9886 | 0,9898 | 0,9818 |
| Capitel-Pos | F1 | 0,9846 | 0,9856 | 0,9836 | 0,9839 | 0,9847 | 0,9816 |
| Sqac | F1 | 0,7923 | 0,8202 | 0,7923 | 0,7562 | 0,7678 | 0,7383 |
| Sts | Combinado | 0,8533 | 0,8411 | 0,8159 | 0,8164 | 0,7945 | 0,8063 |
| Xnli | Precisão | 0,8016 | 0,8263 | 0,8130 | 0,7876 | 0,7890 | 0,7878 |
| Enorme | Precisão | 0,8605 | 0,8722 | 0,8732 | 0,8504 | 0,8500 | 0,8517 |
* Um modelo baseado na arquitetura Bert.
** Um modelo baseado na arquitetura Roberta.
*** Um modelo baseado na arquitetura Electra.
Para mais informações, consulte https://benchmark.plantl.bsc.es/
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
? Estamos interessados em (1) estender nosso corpora para fazer modelos maiores (2) treinar/avaliar o modelo em outras tarefas.
Para perguntas sobre este trabalho, entre em contato com [email protected]
Os modelos publicados neste repositório destinam -se a fins generalistas e estão disponíveis para terceiros. Esses modelos podem ter viés e/ou quaisquer outras distorções indesejáveis.
Quando terceiros, implante ou forneça sistemas e/ou serviços a outras partes usando qualquer um desses modelos (ou usando sistemas com base nesses modelos) ou se tornam usuários dos modelos, eles devem observar que é sua responsabilidade mitigar os riscos decorrentes de seu uso e, em qualquer caso, para cumprir os regulamentos aplicáveis, incluindo regulamentos relativos ao uso da inteligência artificial.
Em nenhum caso o proprietário dos modelos (Sedia - Secretariado do Estado de Digitalização e Inteligência Artificial) nem o Centro de Supercomputação do Criador (BSC - Barcelona) será responsável por quaisquer resultados decorrentes do uso feito por terceiros desses modelos.
Los Modelos Publicados en Este repositorio tienen una Finalidad generalista y Están A Dispossición de Terceros. Estos modelos pueden tener sesgos y/u otro topo de distorsions indesaberáveis.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su Uso y, pt TODO Caso, Cumplir con la normativa applicable, incluyendo la normative en Materia de Uso de Inteligência Artificial.
Enningún Caso el ProPietario de Los Modelos (Sedia - Secretaría de Estado de Digitalizan e Inteligência Artificial) Ni El Creador (BSc - Barcelona Supercomputing Center) Serán Responsable De Los Resultados Derivados del Uso Uso Que Hagan Terceros de Estas Modelos Modelos.