ส่วนที่เก็บของโครงการมาเรีย
| บริษัท | จำนวนเอกสาร | จำนวนโทเค็น | ขนาด (GB) |
|---|---|---|---|
| BNE | 201,080,084 | 135,733,450,668 | 570GB |
ใหม่ ǎguila-7b: https://huggingface.co/projecte-aina/aguila-7b
พารามิเตอร์ 7B LLM ที่ได้รับการฝึกฝนเกี่ยวกับข้อมูลส่วนผสมของข้อมูลภาษาสเปนคาตาลันและภาษาอังกฤษรวมถึงโทเค็น 26B ทั้งหมด มันใช้โมเดล Falcon-7B เป็นจุดเริ่มต้นซึ่งเป็นรูปแบบภาษาอังกฤษที่ล้ำสมัยซึ่งเปิดตัวอย่างเปิดเผยเมื่อไม่กี่เดือนที่ผ่านมาโดยสถาบันเทคโนโลยีนวัตกรรม อ่านเพิ่มเติมที่นี่
Roberta-Base BNE: https://huggingface.co/plantl-gob-es/roberta-base-bne
Roberta-Large BNE: https://huggingface.co/plantl-gob-es/roberta-large-bne
โมเดลภาษาที่สวมหน้ากากที่ใช้หม้อแปลงสำหรับภาษาสเปน พวกเขาอยู่บนพื้นฐานของโมเดลขนาดใหญ่ของโรเบอร์ต้าและได้รับการฝึกอบรมมาก่อนโดยใช้คลังข้อมูลสเปนที่ใหญ่ที่สุดที่รู้จักกันในปัจจุบันโดยมีข้อความที่สะอาดและซ้ำซ้อนทั้งหมด 570GB สำหรับงานนี้รวบรวมจากการรวบรวมข้อมูลเว็บที่ดำเนินการโดยหอสมุดแห่งชาติสเปน (Biblioteca
longformer-base-4096-bne-es: https://huggingface.co/plantl-gob-es/longformer-base-4096-bne-es
รุ่น Longformer ของรูปแบบภาษาที่สวมหน้ากาก Roberta-Base-CA-V2 สำหรับภาษาคาตาลัน การใช้โมเดลเหล่านี้ช่วยให้เราสามารถประมวลผลบริบทที่ใหญ่กว่า (โทเค็นสูงสุด 4096) เป็นอินพุตโดยไม่จำเป็นต้องมีกลยุทธ์การรวมเพิ่มเติม กระบวนการเตรียมการของรุ่นนี้เริ่มต้นจากจุดตรวจ Roberta-Base-CA-V2 และได้รับการปรับแต่งสำหรับ MLM ทั้งในเอกสารสั้นและยาวในคาตาลัน
gpt2-base bne: https://huggingface.co/plantl-gob-es/gpt2-base-bne
gpt2-large bne: https://huggingface.co/plantl-gob-es/gpt2-large-bne
โมเดลที่ใช้หม้อแปลงสำหรับภาษาสเปน พวกเขาอยู่บนพื้นฐานของรุ่น GPT-2 และได้รับการฝึกอบรมมาก่อนโดยใช้คลังข้อมูลสเปนที่ใหญ่ที่สุดที่รู้จักกันในปัจจุบันโดยมีข้อความที่สะอาดและซ้ำซ้อน 570GB สำหรับงานนี้รวบรวมจากการรวบรวมข้อมูลเว็บที่ดำเนินการโดยหอสมุดแห่งชาติสเปน (Biblioteca Nacional de España)
ดูผลลัพธ์ที่ประสบความสำเร็จในหลาย ๆ งานด้านล่าง vegeu els resultats obtinguts en diverses tasques més avall
สำหรับ Roberta-base
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])สำหรับ Roberta-large
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])สำหรับรายการที่สมบูรณ์โปรดดูที่ https://huggingface.co/plantl-gob-es
รูปแบบภาษาเฉพาะโดเมน:
สำหรับรายการที่สมบูรณ์โปรดดูที่ https://huggingface.co/plantl-gob-es
เกณฑ์มาตรฐานการประเมินประกอบด้วย 10 งาน: การจดจำเอนทิตีและการจำแนกประเภท (conll-nerc และ capitel-nerc), การติดแท็กส่วนหนึ่งของคำพูด (UD-POS และ Capitel-POS), การจำแนกประเภทข้อความ (MLDOC), การถ่ายทอดการถอดความ (PAWS-X), ความคล้ายคลึงกัน
| ชุดข้อมูล | ตัวชี้วัด | Roberta-B | Roberta-L | beto* | Mbert | Bertin ** | Electricidad *** |
|---|---|---|---|---|---|---|---|
| MLDOC | F1 | 0.9664 | 0.9702 | 0.9714 | 0.9617 | 0.9668 | 0.9565 |
| conll-nerc | F1 | 0.8851 | 0.8823 | 0.8759 | 0.8691 | 0.8835 | 0.7954 |
| CAPITEL-NENC | F1 | 0.8960 | 0.9051 | 0.8772 | 0.8810 | 0.8856 | 0.8035 |
| Paws-X | F1 | 0.9020 | 0.9150 | 0.8930 | 0.9000 | 0.8965 | 0.9045 |
| UD-POS | F1 | 0.9907 | 0.9904 | 0.9900 | 0.9886 | 0.9898 | 0.9818 |
| เมืองหลวง | F1 | 0.9846 | 0.9856 | 0.9836 | 0.9839 | 0.9847 | 0.9816 |
| SQAC | F1 | 0.7923 | 0.8202 | 0.7923 | 0.7562 | 0.7678 | 0.7383 |
| STS | รวมกัน | 0.8533 | 0.8411 | 0.8159 | 0.8164 | 0.7945 | 0.8063 |
| xnli | ความแม่นยำ | 0.8016 | 0.8263 | 0.8130 | 0.7876 | 0.7890 | 0.7878 |
| มโหฬาร | ความแม่นยำ | 0.8605 | 0.8722 | 0.8732 | 0.8504 | 0.8500 | 0.8517 |
* โมเดลที่ใช้สถาปัตยกรรมเบิร์ต
** โมเดลที่อิงตามสถาปัตยกรรม Roberta
*** แบบจำลองที่ใช้สถาปัตยกรรม Electra
สำหรับข้อมูลเพิ่มเติมโปรดดูที่ https://benchmark.plantl.bsc.es/
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
- เราสนใจ (1) ขยาย Corpora ของเราเพื่อสร้างโมเดลขนาดใหญ่ (2) รถไฟ/ประเมินรูปแบบในงานอื่น ๆ
สำหรับคำถามเกี่ยวกับงานนี้ติดต่อ [email protected]
แบบจำลองที่เผยแพร่ในที่เก็บนี้มีไว้สำหรับวัตถุประสงค์ทั่วไปและมีให้สำหรับบุคคลที่สาม แบบจำลองเหล่านี้อาจมีอคติและ/หรือการบิดเบือนอื่น ๆ ที่ไม่พึงประสงค์
เมื่อบุคคลที่สามปรับใช้หรือจัดหาระบบและ/หรือบริการให้กับบุคคลอื่น ๆ โดยใช้โมเดลเหล่านี้ (หรือใช้ระบบตามรุ่นเหล่านี้) หรือกลายเป็นผู้ใช้แบบจำลองพวกเขาควรทราบว่าเป็นความรับผิดชอบของพวกเขาในการลดความเสี่ยงที่เกิดขึ้นจากการใช้งานและในทุกกรณีเพื่อให้สอดคล้องกับกฎระเบียบที่เกี่ยวข้อง
ไม่ว่าจะเป็นเจ้าของโมเดล (Sedia - State Secretariat for Digitalization และ Artificial Intelligence) หรือผู้สร้าง (BSC - Barcelona Supercomputing Center) จะต้องรับผิดชอบต่อผลลัพธ์ใด ๆ ที่เกิดขึ้นจากการใช้งานโดยบุคคลที่สามของรุ่นเหล่านี้
los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros estos modelos pueden tener sesgos y/u otro tipo de distorsiones
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras แยก usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o usuarios usuarios su uso y, en todo caso, cumplir con la la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia เทียม
en ningún caso el propietario de los modelos (Sedia - Secretaría de Estado de Digitalización e Inteligencia เทียม) Ni El Creador (BSC - Barcelona Supercomputing Center) Serán Responsables