جزء مستودع من مشروع ماريا.
| كوربورا | عدد المستندات | عدد الرموز | الحجم (GB) |
|---|---|---|---|
| بني | 201،080،084 | 135،733،450،668 | 570 جيجابايت |
جديد ǎguila-7b: https://huggingface.co/projecte-ina/aguila-7b
معلمات 7B LLM التي تم تدريبها على مزيج من البيانات الإسبانية والكاتالونية والإنجليزية ، مضيفًا ما مجموعه 26B الرموز. يستخدم نموذج Falcon-7B كنقطة انطلاق ، وهو نموذج للغة الإنجليزية الحديثة التي تم إصدارها علنًا قبل بضعة أشهر من قبل معهد الابتكار التكنولوجي. اقرأ المزيد هنا
Roberta-Base BNE: https://huggingface.co/plantl-gob-es/roberta-base-bne
Roberta-large BNE: https://huggingface.co/plantl-gob-es/roberta-large-bne
نماذج اللغة المقنعة المستندة إلى المحولات للغة الإسبانية. وهي تستند إلى نموذج روبرتا الكبير وتم تدريبهم مسبقًا باستخدام أكبر مجموعة إسبانية معروفة حتى الآن ، مع ما مجموعه 570 جيجابايت من النص النظيف والمؤسس المعالج لهذا العمل ، تم تجميعه من زحف الويب الذي تؤديه المكتبة الوطنية في إسبانيا (Biblioteca nacional de españa) من عام 2009 إلى 2019.
Longformer-Base-4096-Bne-ES: https://huggingface.co/plantl-gob-es/longformer-base-4096-bne-es
النسخة الطويلة من نموذج اللغة Roberta-Base-CA-V2 اللغوية للغة الكاتالونية. يتيح لنا استخدام هذه النماذج معالجة سياقات أكبر (ما يصل إلى 4096 رمزًا) كمدخلات دون الحاجة إلى استراتيجيات تجميع إضافية. بدأت عملية تدريبي لهذا النموذج من نقطة تفتيش Roberta-Base-CA-V2 وتم تجهيزها لـ MLM على كل من الوثائق القصيرة والطويلة في الكاتالانية.
GPT2-Base BNE: https://huggingface.co/plantl-gob-es/gpt2-base-bne
GPT2-LARGE BNE: https://huggingface.co/plantl-gob-es/gpt2-large-bne
نموذج قائم على المحول للغة الإسبانية. وهي تستند إلى نموذج GPT-2 وتم تدريبهم مسبقًا باستخدام أكبر مجموعة إسبانية معروفة حتى الآن ، مع ما مجموعه 570 جيجابايت من النص النظيف والمؤلف معالجًا لهذا العمل ، تم تجميعه من زحف الويب الذي تؤديه المكتبة الوطنية في إسبانيا (Biblioteca nacional de españa) من عام 2009 إلى 2019.
انظر النتائج التي تحققت في عدة مهام أدناه. Vegeu els resultats obinguts en diverses tasques més avall .
لروبرتا-قاعدة
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])لروبرتا لارج
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])للحصول على قائمة كاملة ، راجع https://huggingface.co/plantl-gob-es
نماذج اللغة الخاصة بالمجال:
للحصول على قائمة كاملة ، راجع https://huggingface.co/plantl-gob-es
يتكون معيار التقييم من 10 مهام: التعرف على الكيان المسمى وتصنيف (Conll-RENC و CAPITEL-NERC) ، وعلامة جزء من الكلام (UD-POS و CAPITEL-POS) ، وتصنيف النصوص (MLDOC) ، والتعيين المعدني (PAWS-X) ، والتشابه النصفي للثلاثية (STS) (SQAC) (SQAC).
| مجموعة البيانات | متري | روبرتا ب | روبرتا ل | بيتو* | Mbert | بيرتين ** | electricidad *** |
|---|---|---|---|---|---|---|---|
| Mldoc | F1 | 0.9664 | 0.9702 | 0.9714 | 0.9617 | 0.9668 | 0.9565 |
| conll-nerc | F1 | 0.8851 | 0.8823 | 0.8759 | 0.8691 | 0.8835 | 0.7954 |
| Capitel-NERC | F1 | 0.8960 | 0.9051 | 0.8772 | 0.8810 | 0.8856 | 0.8035 |
| PAWS-X | F1 | 0.9020 | 0.9150 | 0.8930 | 0.9000 | 0.8965 | 0.9045 |
| UD-Pos | F1 | 0.9907 | 0.9904 | 0.9900 | 0.9886 | 0.9898 | 0.9818 |
| كابيتل بوس | F1 | 0.9846 | 0.9856 | 0.9836 | 0.9839 | 0.9847 | 0.9816 |
| sqac | F1 | 0.7923 | 0.8202 | 0.7923 | 0.7562 | 0.7678 | 0.7383 |
| STS | مجموع | 0.8533 | 0.8411 | 0.8159 | 0.8164 | 0.7945 | 0.8063 |
| Xnli | دقة | 0.8016 | 0.8263 | 0.8130 | 0.7876 | 0.7890 | 0.7878 |
| جَسِيم | دقة | 0.8605 | 0.8722 | 0.8732 | 0.8504 | 0.8500 | 0.8517 |
* نموذج يعتمد على بيرت بنية.
** نموذج يعتمد على الهندسة المعمارية.
*** نموذج يعتمد على هندسة Electra.
لمزيد من المعلومات ، راجع https://benchmark.plantl.bsc.es/
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
؟ نحن مهتمون بـ (1) تمديد الشركات الخاصة بنا لإنشاء نماذج أكبر (2) تدريب/تقييم النموذج في المهام الأخرى.
للأسئلة المتعلقة بهذا العمل ، اتصل بـ [email protected]
النماذج المنشورة في هذا المستودع مخصصة لغرض عام ومتاحة لأطراف ثالثة. قد يكون لهذه النماذج تحيز و/أو أي تشوهات أخرى غير مرغوب فيها.
عندما يتم نشر أنظمة و/أو تقديم أنظمة و/أو تقديمها لأطراف أخرى باستخدام أي من هذه النماذج (أو استخدام أنظمة تعتمد على هذه النماذج) أو تصبح مستخدمين للنماذج ، يجب أن يلاحظوا أنه من مسؤوليتهم تخفيف المخاطر الناشئة عن استخدامها ، وفي أي حال ، للامتثال للوائح المعمول بها ، بما في ذلك اللوائح المتعلقة باستخدام الذكاء الاصطناعي.
لا يجوز بأي حال من الأحوال أن يتحمل مالك النماذج (SEDIA - أمانة الدولة للرقمنة والذكاء الاصطناعي) ولا الخالق (BSC - مركز الحوسبة الفائقة برشلونة) مسؤولية أي نتائج ناشئة عن الاستخدام الذي أجراه أطراف ثالثة من هذه النماذج.
LOS Modelos Publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. stos modelos pueden tener sesgos y/u otro tipo de distorsiones indesables.
cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras parts usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o conviertan su uso y ، en todo caso ، cumplir con la normativa applable ، incluyendo la normativa en materia de uso de inteligencia antaNSTION.
En Ningún Caso el Propietario de Los Modelos (Sedia - Sericaría de Estado de Devalitización e Inteligencia intelectial) ni el creador (BSC - Barcelona Superceding Center) Serán de de los resultados derivados del uso que hagan terceros de estos.