
مرحبًا بك في مستودع نماذج LifeWeb Language. نهدف هنا إلى تدريب نماذج اللغة الفارسية المختلفة وإطلاق سراحها علنًا للمساهمة في حصتنا في مجال الذكاء الاصطناعي في اللغة الفارسية. يتم تدريب جميع الإصدارات الأولى من نماذجنا على مجموعة البيانات التي تسمى Divan مع أكثر من 164 مليون وثيقة وأكثر من 10B الرموز التي يتم تطبيعها وتكريسها بدقة لضمان إثراءها وشملتها. مجموعة بيانات أفضل تؤدي إلى نموذج أفضل.
يمكنك بسهولة الوصول إلى النماذج باستخدام روابط Huggingface Model Hub المتوفرة في الجدول أدناه.
| اسم النموذج | نموذج قاعدة | حجم المفردات | |
|---|---|---|---|
| طهران | روبرتا | 50000 | نتائج |
| شيراز | Mobilebert | 50000 | نتائج |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}يتم تقييم نماذج LIFEWEB على ثلاث مهام NLP المصب التي تشتمل على NER ، وتحليل المشاعر ، واكتشاف العاطفة . يتفوق طهران على كل نموذج لغة فارسي آخر من حيث الدقة والماكرو F1. بالإضافة إلى ذلك ، فإن Shiraz أسرع بكثير ، وتبقى دقتها تنافسية للغاية دون المساس بالسرعة. وفقًا لورقة MobileBert ، يكون هذا النموذج 4.3 × أصغر و 5.5 × أسرع من Bert-Base. نؤكد أن نماذجنا تتفوق على جميع النماذج المماثلة في هذا المجال ، مما يحقق أداءً جديدًا جديدًا. في إشارة إلى بارسبيرت وأريابرت وفابيرت ، نثبت هذا الادعاء من خلال إظهار مقاييس التقييم المتفوقة ، حتى لأنهم أبرزوا أداءهم الأفضل بين النماذج المناسبة الأخرى.
من الواضح من الجدول أدناه ، يمكنك العثور على رموز كولاب لكل مهمة لاستخدامها كبرنامج تعليمي إلى جانب درجة الماكرو F1. يتم تشغيل رموز كولاب هذه على قدم المساواة على بطاقات الرسومات 4x2080 TI.
| نموذج | نير | المشاعر | العاطفة | ||
|---|---|---|---|---|---|
| أرمان | بيما | المصدرون (متعدد) | snappfood | أرمان | |
| Lifeweb-Ai/طهران | 71.87 ٪ | 90.79 ٪ | 63.75 ٪ | 88.74 ٪ | 77.73 ٪ |
| Lifeweb-Ai/Shiraz | 67.62 ٪ | 86.24 ٪ | 59.17 ٪ | 88.01 ٪ | 66.97 ٪ |
| SBUNLP/FABERT | 71.23 ٪ | 88.53 ٪ | 58.51 ٪ | 88.60 ٪ | 72.65 ٪ |
| ViraintelligentDatamining/ariabert | 69.12 ٪ | 87.15 ٪ | 59.26 ٪ | 87.96 ٪ | 69.11 ٪ |
| hooshvarelab/bert-fa-zwnj-base | 67.49 ٪ | 85.73 ٪ | 59.61 ٪ | 87.58 ٪ | 59.27 ٪ |
| HOOSHVARELAB/ROBERTA-FA-ZWNJ-BASE | 69.73 ٪ | 86.21 ٪ | 56.23 ٪ | 87.19 ٪ | 57.96 ٪ |
إذا قمت باختبار نماذجنا على مجموعة بيانات عامة ، وأردت إضافة نتائجك إلى الجدول أعلاه ، افتح طلب سحب أو اتصل بنا. أيضًا ، تأكد من توفر الرمز الخاص بك عبر الإنترنت حتى نتمكن من إضافة مرجع.
v1.0 (2024-03-09)
النسخة الأولى من طرز طهران وشيراز تدربت على ديفان .
من خلال المساهمة في هذا المشروع ، فإنك توافق على أن مساهماتك سيتم ترخيصها بموجب ترخيص Apache 2.0