玛丽亚项目的存储库部分。
| 语料库 | 文档数量 | 令牌数量 | 尺寸(GB) |
|---|---|---|---|
| bne | 201,080,084 | 135,733,450,668 | 570GB |
新的ǎGuila-7b:https://huggingface.co/projecte-aina/aguila-7b
7B参数LLM已通过西班牙,加泰罗尼亚和英语数据的混合物进行了培训,总计26B令牌。它使用Falcon-7b模型作为起点,这是一种最先进的英语模型,几个月前由技术创新研究所公开发布。在这里阅读更多
Roberta-Base BNE:https://huggingface.co/plantl-gob-es/roberta-base-bene
Roberta-large bne:https://huggingface.co/plantl-gob-es/roberta-large-bne
西班牙语的基于变压器的掩盖语言模型。它们基于罗伯塔大型模型,并已通过迄今为止已知的西班牙语料库进行了预先培训,从2009年到2019年,由西班牙国家图书馆(Biblioteca nacional deEspaña)进行的,总共为这项工作处理了570gb的清洁和重复的文本。
longformer-base-4096-bne-es:https://huggingface.co/plantl-gob-es/longformer-base-4096-bne-es
Roberta-Base-Ca-v2的longformer版本掩盖了加泰罗尼亚语言的语言模型。这些模型的使用使我们能够处理较大的上下文(最多4096个令牌)作为输入,而无需其他聚合策略。该模型的预处理过程始于罗伯塔基本-Base-CA-V2检查点,并在加泰罗尼亚州的短期和长文档中均已鉴定MLM。
gpt2-base bne:https://huggingface.co/plantl-gob-es/gpt2-base-bne
gpt2-large bne:https://huggingface.co/plantl-gob-es/gpt2-large-bne
基于变压器的西班牙语模型。它们基于GPT-2模型,并已使用迄今为止已知的西班牙语料库进行了预先培训,从2009年到2019年,总共为这项工作处理了这项工作的570GB清洁和重复的文本。
请参阅下面的几个任务上实现的结果。 vegeu els taustats obtinguts带来了塔斯奎斯·梅斯·阿瓦尔(TasquesMésAvall)的不同。
对于罗伯塔基地
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])对于罗伯塔大
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])有关完整列表,请参阅https://huggingface.co/plantl-gob-es
特定于领域的语言模型:
有关完整列表,请参阅https://huggingface.co/plantl-gob-es
评估基准由10个任务组成:命名实体识别和分类(CONLL-NERC和CAPITEL-NERC),言论部分标签(UD-POS和Capitel-Pos),文本分类(MLDOC),paraphrase识别(PAWS-X)(PAWS-X),语义文本相似性(STS),询问(STS),质量答案(SQAC)(SQAC),sqic and Ential(SQAIM),x nim eNTIAL(xnli Ential)(x Nli eNTAIL)(kextual eNTAIL)(kextual eNTAIL)(xnum xul eNTAIL)(xnum xul eNTAIL)。
| 数据集 | 公制 | 罗伯塔-B | 罗伯塔河 | beto* | 姆伯特 | 伯丁** | Electricidad *** |
|---|---|---|---|---|---|---|---|
| Mldoc | F1 | 0.9664 | 0.9702 | 0.9714 | 0.9617 | 0.9668 | 0.9565 |
| conll-nerc | F1 | 0.8851 | 0.8823 | 0.8759 | 0.8691 | 0.8835 | 0.7954 |
| Capitel-nerc | F1 | 0.8960 | 0.9051 | 0.8772 | 0.8810 | 0.8856 | 0.8035 |
| paws-x | F1 | 0.9020 | 0.9150 | 0.8930 | 0.9000 | 0.8965 | 0.9045 |
| ud-pos | F1 | 0.9907 | 0.9904 | 0.9900 | 0.9886 | 0.9898 | 0.9818 |
| Capitel-Pos | F1 | 0.9846 | 0.9856 | 0.9836 | 0.9839 | 0.9847 | 0.9816 |
| SQAC | F1 | 0.7923 | 0.8202 | 0.7923 | 0.7562 | 0.7678 | 0.7383 |
| sts | 合并 | 0.8533 | 0.8411 | 0.8159 | 0.8164 | 0.7945 | 0.8063 |
| xnli | 准确性 | 0.8016 | 0.8263 | 0.8130 | 0.7876 | 0.7890 | 0.7878 |
| 大量的 | 准确性 | 0.8605 | 0.8722 | 0.8732 | 0.8504 | 0.8500 | 0.8517 |
*基于BERT体系结构的模型。
**基于罗伯塔建筑的模型。
***基于电气体系结构的模型。
有关更多信息,请参阅https://benchmark.plantl.bsc.es/
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
?我们对(1)扩展我们的语料库以使更大的模型(2)训练/评估其他任务中的模型感兴趣。
有关这项工作的问题,请联系[email protected]
此存储库中发表的模型旨在用于通才目的,可供第三方使用。这些模型可能具有偏见和/或任何其他不良扭曲。
当第三方使用这些模型中的任何一个(或使用基于这些模型的系统)向其他方部署或提供系统和/或服务时,他们应该注意到,他们有责任减轻其使用而导致的风险,并且无论如何,无论如何,在任何情况下都遵守适用的法规,包括有关使用人工智能使用的法规。
在任何情况下,任何模型的所有者都不应对这些模型的第三方使用所产生的任何结果承担任何责任。
Los Modelos Publicados en este repositorio tienen una finalidad gentrista yestánadisposicióndeterceros。 Estos Modelos Pueden Tener sesgos y/u otro tipo de deStoriones不可估量。
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y,en todo caso,cumplir con la normativa aplicable,normato la normativa en Materia de uso de uso de inteligencia人工。
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.