تنزيل Multi dialect Arabic BERT - تنزيل رمز المصدر Multi dialect Arabic BERT

Multi dialect Arabic BERT

كود الذكاء الاصطناعي

1.0.0

تنزيل

متعددة الأبعاد-أربيك بيرت

هذا هو مستودع لنموذج بيرت العربي متعدد الطوائف.

بواسطة Mawdoo3-AAI.

مرجع الخلفية: http://www.qfi.org/wp-content/uploads/2018/02/qfi_infographic_mother--language_final.pdf

حول نموذجنا متعدد الأرفاق-بيرت

بدلاً من تدريب نموذج BERT العربي متعدد الطوائف من نقطة الصفر ، قمنا بتهيئة أوزان النموذج باستخدام Bert العربي وقمنا بتدريبه على تغريدات عربية 10 أمتار من البيانات غير المعتمدة لمهمة تحديد لهجة اللغة العربية الدقيقة (NADI).

للاستشهاد بهذا العمل

 @misc{talafha2020multidialect,
    title={Multi-Dialect Arabic BERT for Country-Level Dialect Identification},
    author={Bashar Talafha and Mohammad Ali and Muhy Eddin Za'ter and Haitham Seelawi and Ibraheem Tuffaha and Mostafa Samir and Wael Farhan and Hussein T. Al-Natsheh},
    year={2020},
    eprint={2007.05612},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

الاستخدام

يمكن تحميل أوزان النموذج باستخدام مكتبة transformers عن طريق Huggingface.

 from transformers import AutoTokenizer , AutoModel

tokenizer = AutoTokenizer . from_pretrained ( "bashar-talafha/multi-dialect-bert-base-arabic" )
model = AutoModel . from_pretrained ( "bashar-talafha/multi-dialect-bert-base-arabic" )

مثال باستخدام pipeline :

 from transformers import pipeline

fill_mask = pipeline (
    "fill-mask" ,
    model = "bashar-talafha/multi-dialect-bert-base-arabic " ,
    tokenizer = "bashar-talafha/multi-dialect-bert-base-arabic "
)

fill_mask ( " سافر الرحالة من مطار [MASK] " )

 [{'sequence': '[CLS] سافر الرحالة من مطار الكويت [SEP]', 'score': 0.08296813815832138, 'token': 3226},
 {'sequence': '[CLS] سافر الرحالة من مطار دبي [SEP]', 'score': 0.05123933032155037, 'token': 4747},
 {'sequence': '[CLS] سافر الرحالة من مطار مسقط [SEP]', 'score': 0.046838656067848206, 'token': 13205},
 {'sequence': '[CLS] سافر الرحالة من مطار القاهرة [SEP]', 'score': 0.03234650194644928, 'token': 4003},
 {'sequence': '[CLS] سافر الرحالة من مطار الرياض [SEP]', 'score': 0.02606341242790222, 'token': 2200}]

المعلمات النموذج

المعلمة	قيمة
بنيان	Bertformaskedlm
hidden_size	768
max_position_embeddings	512
num_attention_heads	12
num_hidden_layers	12
vocab_size	32000
hidden_size	768
إجمالي عدد المعلمات	110 م

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-08
الحجم 849.63KB
من Github

تطبيقات ذات صلة

multi roblox macos

2024-11-14
طقس السعودية - عربي

2024-11-12
TikTok Multi Downloader

2024-11-10
GitHub sgrebnov/cordova plugin background download

2024-11-05
مشروع دراغون بول النسخة الصينية المتعددة

2024-08-23
رجل العائلة: العودة إلى المتعدد

2022-08-29

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل