마리아 프로젝트의 저장소 부분.
| Corpora | 문서 수 | 토큰 수 | 크기 (GB) |
|---|---|---|---|
| bne | 201,080,084 | 135,733,450,668 | 570GB |
New 7guila-7b : https://huggingface.co/projecte-aina/aguila-7b
스페인어, 카탈로니아어 및 영어 데이터의 혼합에 대해 훈련 된 7b 매개 변수 LLM은 총 26B 토큰을 추가합니다. Falcon-7B 모델은 몇 달 전에 Technology Innovation Institute에서 공개적으로 출시 된 최첨단 영어 모델 인 출발점으로 사용합니다. 여기에서 자세히 알아보십시오
Roberta-Base Bne : https://huggingface.co/plantl-gob-es/roberta-base-bne
Roberta-large bne : https://huggingface.co/plantl-gob-es/roberta-large-bne
스페인어를위한 변압기 기반 가면 언어 모델. 이들은 Roberta Large 모델을 기반으로하며 현재까지 알려진 가장 큰 스페인 코퍼스를 사용하여 미리 훈련되었습니다. 2009 년부터 2019 년까지 스페인 국립 도서관 (Biblioteca Nacional de España)이 수행 한 웹 크롤링에서 컴파일 된이 작품에 대해 총 570GB의 깨끗하고 중복 제거 된 텍스트가 처리되었습니다.
Longformer-Base-4096-Bne-ES : https://huggingface.co/plantll-gob-es/longformer-base-4096-bne-es
카탈로니아 언어를위한 Roberta-Base-CA-V2 마스크 언어 모델의 Longformer 버전. 이러한 모델을 사용하면 추가 집계 전략없이 더 큰 컨텍스트 (최대 4096 개의 토큰)를 입력으로 처리 할 수 있습니다. 이 모델의 사전 계약 프로세스는 Roberta-Base-CA-V2 체크 포인트에서 시작하여 카탈로니아의 짧은 문서와 긴 문서 모두에서 MLM에 대해 사전에 사기를했습니다.
gpt2-base bne : https://huggingface.co/plantl-gob-es/gpt2-base-bne
gpt2-large bne : https://huggingface.co/plantl-gob-es/gpt2-large-bne
스페인어를위한 변압기 기반 모델. 이들은 GPT-2 모델을 기반으로하며 현재까지 알려진 가장 큰 스페인 코퍼스를 사용하여 미리 훈련되었습니다.이 작품에 대해 총 570GB의 깨끗하고 중복 제거 된 텍스트가 2009 년부터 2019 년까지 스페인 국립 도서관 (Biblioteca Nacional de España)이 수행 한 웹 크롤링에서 편집 한 텍스트를 사용했습니다.
아래의 여러 작업에서 달성 된 결과를 참조하십시오. Vegeu els 결과는 tasques més avall을 다이버합니다 .
Roberta-Base를 위해
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Roberta-Large를 위해
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])전체 목록은 https://huggingface.co/plantl-gob-es를 참조하십시오
도메인 별 언어 모델 :
전체 목록은 https://huggingface.co/plantl-gob-es를 참조하십시오
평가 벤치 마크는 명명 된 엔티티 인식 및 분류 (CONLL-NERC 및 CAPITEL-NERC), 부품 태그 (UD-POS 및 Capitel-POS), 텍스트 분류 (MLDOC), PAWS-X (Paraphrase Identification), 시맨틱 텍스트 유사성 (SCAC), 텍스트 응답 (SQAC) 및 Massive (xNLI)로 구성됩니다.
| 데이터 세트 | 메트릭 | Roberta-B | Roberta-L | 베토* | Mbert | Bertin ** | 전기 시드 *** |
|---|---|---|---|---|---|---|---|
| mldoc | F1 | 0.9664 | 0.9702 | 0.9714 | 0.9617 | 0.9668 | 0.9565 |
| conll-rerc | F1 | 0.8851 | 0.8823 | 0.8759 | 0.8691 | 0.8835 | 0.7954 |
| Capitel-Nerc | F1 | 0.8960 | 0.9051 | 0.8772 | 0.8810 | 0.8856 | 0.8035 |
| PAWS-X | F1 | 0.9020 | 0.9150 | 0.8930 | 0.9000 | 0.8965 | 0.9045 |
| UD-POS | F1 | 0.9907 | 0.9904 | 0.9900 | 0.9886 | 0.9898 | 0.9818 |
| Capitel-Pos | F1 | 0.9846 | 0.9856 | 0.9836 | 0.9839 | 0.9847 | 0.9816 |
| SQAC | F1 | 0.7923 | 0.8202 | 0.7923 | 0.7562 | 0.7678 | 0.7383 |
| STS | 결합 | 0.8533 | 0.8411 | 0.8159 | 0.8164 | 0.7945 | 0.8063 |
| xnli | 정확성 | 0.8016 | 0.8263 | 0.8130 | 0.7876 | 0.7890 | 0.7878 |
| 엄청난 | 정확성 | 0.8605 | 0.8722 | 0.8732 | 0.8504 | 0.8500 | 0.8517 |
* 버트 아키텍처를 기반으로 한 모델.
** Roberta 아키텍처를 기반으로 한 모델.
*** Electra 아키텍처를 기반으로 한 모델.
자세한 내용은 https://benchmark.plantl.bsc.es/를 참조하십시오.
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
? 우리는 (1) 더 큰 모델을 만들기 위해 Corpora를 확장하는 데 관심이 있습니다 (2) 다른 작업에서 모델을 훈련/평가합니다.
이 작업에 관한 질문은 [email protected]로 문의하십시오
이 저장소에 발표 된 모델은 일반적인 목적을위한 것이며 제 3 자에게 제공됩니다. 이 모델에는 편향 및/또는 다른 바람직하지 않은 왜곡이있을 수 있습니다.
제 3 자, 이러한 모델을 사용하거나 이러한 모델을 기반으로 한 시스템을 사용하는 다른 당사자에게 시스템 및/또는 서비스를 제공하거나 모델의 사용자가되면, 사용으로 인해 발생하는 위험을 완화하는 것은 그들의 책임이며, 어떤 경우에도 인공 지능 사용에 관한 규제를 포함하여 적용 가능한 규정을 준수해야합니다.
어떠한 경우에도 모델의 소유자 (SEDIA - 디지털화 및 인공 지능을위한 주 사무국) 또는 제작자 (BSC - 바르셀로나 슈퍼 컴퓨팅 센터)는이 모델의 제 3자가 사용한 결과에 대해 책임을지지 않습니다.
los modelos publicados en este repositorio tienen una finalidad generalista y esán a lisposición de terceros. Estos Modelos Pueden Tener Sesgos y/u otro tipo de pistorsiones indeseables.
Cuando Terceros desplieguen o Proporcionen sistemas y/o servicios aTras 부분 usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener ener en cuenta que es su ros res res r res r res r res r res r res r res res res res res res res res res res res res res rese. y, en todo caso, cumplir con la normativa inspolable, incluyendo la normativa en materia de uso de inteligencia 인공.
En Ningún Caso El Propietario de los Modelos (Sedia - Sedia - Digitalización e Inteligencia 인공) Ni El Creador (BSC - Barcelona SuperComputing Center) Serán Resportables de los ros ros ros ros resivados del uso que quer terceros de ostos modelos.