Bagian repositori dari proyek Maria.
| Korpora | Jumlah dokumen | Jumlah token | Ukuran (GB) |
|---|---|---|---|
| Bne | 201.080.084 | 135.733.450.668 | 570GB |
ǎguila-7b baru : https://huggingface.co/projecte-aina/aguila-7b
Parameter 7B LLM yang telah dilatih pada campuran data Spanyol, Catalan dan Inggris, menambahkan hingga total 26b token. Ini menggunakan model Falcon-7b sebagai titik awal, model bahasa Inggris yang canggih yang secara terbuka dirilis beberapa bulan yang lalu oleh Technology Innovation Institute. Baca lebih lanjut di sini
Roberta-Base BNE: https://huggingface.co/plantl-gob-es/roberta-base-bne
Roberta-Large BNE: https://huggingface.co/plantl-gob-es/roberta-large-bne
Model bahasa bertopeng berbasis transformator untuk bahasa Spanyol. Mereka didasarkan pada model Roberta Large dan telah dilatih sebelumnya menggunakan korpus Spanyol terbesar yang diketahui hingga saat ini, dengan total 570GB teks bersih dan deduplikasi yang diproses untuk karya ini, yang disusun dari penjelajahan web yang dilakukan oleh Perpustakaan Nasional Spanyol (Biblioteca Nacional de España) dari 2009 hingga 2019.
Longformer-Base-4096-bne-es: https://huggingface.co/plantl-gob-es/longformer-base-4096-bne-es
Versi Longformer dari model bahasa topeng roBol-base-ca-V2 untuk bahasa Catalan. Penggunaan model -model ini memungkinkan kita untuk memproses konteks yang lebih besar (hingga 4096 token) sebagai input tanpa perlu strategi agregasi tambahan. Proses pretraining dari model ini dimulai dari pos pemeriksaan Roberta-Base-CA-V2 dan pretrained untuk MLM pada dokumen pendek dan panjang di Catalan.
GPT2-BASE BNE: https://huggingface.co/plantl-gob-es/gpt2-base-bne
GPT2-Large BNE: https://huggingface.co/plantl-gob-es/gpt2-large-bne
Model berbasis transformator untuk bahasa Spanyol. Mereka didasarkan pada model GPT-2 dan telah dilatih sebelumnya menggunakan corpus Spanyol terbesar yang diketahui hingga saat ini, dengan total 570GB teks bersih dan deduplikasi yang diproses untuk pekerjaan ini, disusun dari perayapan web yang dilakukan oleh Perpustakaan Nasional Spanyol (Biblioteca Nacional de España) dari 2009 hingga 2019.
Lihat hasil yang dicapai pada beberapa tugas di bawah ini. Vegeu els menghasilkan obtinguts en beragam tasques més avall .
Untuk Roberta-Base
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Untuk Roberta-Large
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Untuk daftar lengkap, lihat https://huggingface.co/plantl-gob-es
Model bahasa khusus domain:
Untuk daftar lengkap, lihat https://huggingface.co/plantl-gob-es
Benchmark evaluasi terdiri dari 10 tugas: pengakuan entitas yang disebutkan dan klasifikasi (Conll-Beric dan Capitel-Beric), penandaan bagian-of-speech (UD-POS dan Capitel-Pos), Klasifikasi Teks (MLDOC), Penjawab Paraphrase.
| Dataset | Metrik | Roberta-B | Roberta-l | Beto* | mbert | Bertin ** | Electricidad *** |
|---|---|---|---|---|---|---|---|
| Mldoc | F1 | 0.9664 | 0.9702 | 0.9714 | 0.9617 | 0.9668 | 0.9565 |
| Conll-nerc | F1 | 0.8851 | 0.8823 | 0.8759 | 0.8691 | 0.8835 | 0.7954 |
| Capitel-Beric | F1 | 0.8960 | 0.9051 | 0.8772 | 0.8810 | 0.8856 | 0.8035 |
| Paws-X | F1 | 0.9020 | 0.9150 | 0.8930 | 0,9000 | 0.8965 | 0.9045 |
| UD-POS | F1 | 0.9907 | 0.9904 | 0.9900 | 0.9886 | 0.9898 | 0.9818 |
| Capitel-Pos | F1 | 0.9846 | 0.9856 | 0.9836 | 0.9839 | 0.9847 | 0.9816 |
| SQAC | F1 | 0.7923 | 0.8202 | 0.7923 | 0.7562 | 0.7678 | 0.7383 |
| STS | Digabungkan | 0.8533 | 0.8411 | 0.8159 | 0.8164 | 0.7945 | 0.8063 |
| Xnli | Ketepatan | 0.8016 | 0.8263 | 0.8130 | 0.7876 | 0.7890 | 0.7878 |
| Besar sekali | Ketepatan | 0.8605 | 0.8722 | 0.8732 | 0.8504 | 0.8500 | 0.8517 |
* Model berdasarkan arsitektur Bert.
** Model berdasarkan arsitektur Roberta.
*** Model berdasarkan arsitektur electra.
Untuk informasi lebih lanjut, lihat https://benchmark.plantl.bsc.es/
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
? Kami tertarik pada (1) memperluas korpora kami untuk membuat model yang lebih besar (2) melatih/mengevaluasi model dalam tugas lain.
Untuk pertanyaan tentang pekerjaan ini, hubungi [email protected]
Model yang diterbitkan dalam repositori ini dimaksudkan untuk tujuan generalis dan tersedia untuk pihak ketiga. Model -model ini mungkin memiliki bias dan/atau distorsi lainnya yang tidak diinginkan.
Ketika pihak ketiga, menggunakan atau menyediakan sistem dan/atau layanan kepada pihak lain yang menggunakan salah satu model ini (atau menggunakan sistem berdasarkan model -model ini) atau menjadi pengguna model, mereka harus mencatat bahwa itu adalah tanggung jawab mereka untuk mengurangi risiko yang timbul dari penggunaannya dan, dalam hal apa pun, untuk mematuhi peraturan yang berlaku, termasuk peraturan mengenai penggunaan kecerdasan buatan.
Dalam hal apa pun pemilik model (SEDIA - Sekretariat negara bagian untuk digitalisasi dan kecerdasan buatan) atau pencipta (BSC - Barcelona Supercomputing Center) bertanggung jawab atas hasil apa pun yang timbul dari penggunaan yang dibuat oleh pihak ketiga model ini.
Los modelos publicados en este repositorio tienen una finalidad generalise y están a disposición de terceros. Estos Modelos Pueden Tener Sesgos Y/U OTRO Tipo de Distorsiones Hak Hidak.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelo (o utilizando sistemas basados en estos model derivado conuSabil de los de los model, deben tener tener cuperad Uso y, en todo caso, cumplir con la normativa aplable, incuyendo la normativa en materia de uso de inteligencia buatan.
En ningún caso el propietario de los modelos (Sedia - Secretaría de Estado de Digitalización e Inteligencia Buatan) ni el creador (BSc - Barcelona Supercomputing Center) Serán Responsables de Los Hasil Derivados del USO QUE HAGAN TERCEROS DE LOS ESTOSOS.