تنزيل parsbert - تنزيل رمز المصدر parsbert

parsbert

شفرة المصدر الأخرى

1.0.0

تنزيل

بارسبيرت: نموذج قائم على المحولات لفهم اللغة الفارسية؟

Parsbert هو نموذج لغة أحادية اللغة يعتمد على بنية Bert من Google. يتم تدريب هذا النموذج مسبقًا على الشركات الفارسية الكبيرة مع أنماط الكتابة المختلفة من العديد من الموضوعات (على سبيل المثال ، العلمية ، الروايات ، الأخبار) مع أكثر من 3.9M مستندات ، 73M جمل ، و 1.3B من الكلمات.

ورقة عرض بارسبيرت: doi: 10.1007/s11063-021-10528-4

الإصدار الحالي: V3

مقدمة

تدرب بارسبيرت على كمية هائلة من الشركات العامة (Wikidumps الفارسية ، Mirastext) وستة بيانات نصية أخرى يدويًا من نوع مختلف من digital magazine الويب (Bigbang Page scientific ، Chetor lifestyle ، itinerary Old general conversational novels, storybooks, short stories from old to the contemporary era ).

كجزء من منهجية Parsbert ، تم تنفيذ معالجة مسبقة واسعة النطاق تجمع بين وضع علامات POS وتجزئة WordPiece لجلب الشركة إلى تنسيق مناسب.

Parsbert Demo

~~Parsbert Playground~~

تقييم

يتم تقييم Parsbert على ثلاث مهام NLP المصب: تحليل المشاعر (SA) ، وتصنيف النص ، والتعرف على الكيان المسماة (NER). بالنسبة لهذه المسألة وبسبب عدم كفاية الموارد ، تم تأليف مجموعتين كبيرتين لتصنيف SA واثنين لتصنيف النص يدويًا ، وهما متاحان للاستخدام العام والقياس. تفوقت Parsbert على جميع نماذج اللغة الأخرى ، بما في ذلك Bert متعددة اللغات ونماذج التعلم العميق الهجينة الأخرى لجميع المهام ، مما يحسن الأداء الحديث في نمذجة اللغة الفارسية.

نتائج

يلخص الجدول التالي درجة F1 التي حصل عليها Parsbert بالمقارنة مع النماذج والبنية الأخرى.

مهمة تحليل المشاعر (SA)

مجموعة البيانات	بارسبيرت V3	بارسبيرت V2	بارسبيرت V1	Mbert	DeepSentipers
تعليقات مستخدم Digikala	-	81.72	81.74*	80.74	-
تعليقات المستخدم Snappfood	-	87.98	88.12*	87.87	-
مصفّفون (فئة متعددة)	-	71.31*	71.11	-	69.33
مستلزمات (فئة ثنائية)	-	92.42*	92.13	-	91.98

مهمة تصنيف النص (TC)

مجموعة البيانات	بارسبيرت V3	بارسبيرت V2	بارسبيرت V1	Mbert
مجلة Digikala	-	93.65*	93.59	90.72
الأخبار الفارسية	-	97.44*	97.19	95.79

مهمة التعرف على الكيان (NER)

مجموعة البيانات	بارسبيرت V3	بارسبيرت V2	بارسبيرت V1	Mbert	morphobert	Beheshti	LSTM-CRF	CRF القائم على القواعد	BILSTM-CRF
بيما		93.40*	93.10	86.64	-	90.59	-	84.00	-
أرمان		99.84*	98.79	95.89	89.9	84.03	86.55	-	77.45

إذا قمت باختبار Parsbert على مجموعة بيانات عامة ، وكنت ترغب في إضافة نتائجك إلى الجدول أعلاه ، افتح طلب سحب أو اتصل بنا. تأكد أيضًا من توفر الكود الخاص بك عبر الإنترنت حتى نتمكن من إضافته كمرجع

كيفية استخدام

 from transformers import AutoConfig , AutoTokenizer , AutoModel , TFAutoModel

# v3.0
model_name_or_path = "HooshvareLab/bert-fa-zwnj-base"
config = AutoConfig . from_pretrained ( model_name_or_path )
tokenizer = AutoTokenizer . from_pretrained ( model_name_or_path )

# model = TFAutoModel.from_pretrained(model_name_or_path)  For TF
model = AutoModel . from_pretrained ( model_name_or_path )

text = "ما در هوش‌واره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer . tokenize ( text )

[ 'ما' , 'در' , 'هوش' , '[ZWNJ]' , 'واره' , 'معتقدیم' , 'با' , 'انتقال' , 'صحیح' , 'دانش' , 'و' , 'آ' , '##گاهی' , '،' , 'همه' , 'افراد' , 'میتوانند' , 'از' , 'ابزارهای' , 'هوشمند' , 'استفاده' , 'کنند' , '.' , 'شعار' , 'ما' , 'هوش' , 'مصنوعی' , 'برای' , 'همه' , 'است' , '.' ]

نماذج مشتقة

v3.0

نموذج Bert V3.0

hooshvarelab/bert-fa-zwnj-base

نموذج Distilbert V3.0

hooshvarelab/distilbert-fa-zwnj-base

نموذج ألبرت V3.0

Hooshvarelab/Albert-Fa-Zwnj-Base-V2

نموذج روبرتا V3.0

HOOSHVARELAB/ROBERTA-FA-ZWNJ-BASE

v2.0

Parsbert V2.0 نموذج

HOOSHVARELAB/BERT-FA-BASE

تحليل المشاعر بارسبيرت v2.0

HOOSHVARELAB/BERT-FA-BASE-SENTIMENT-DIGIKALA
HOOSHVARELAB/BERT-FA-base-snappfood
HOOSHVARELAB/BERT-FA-BASE-SENTIMENTIPERS-BINENT
HOOSHVARELAB/BERT-FA-BASE-SENTIMENTIPERS-MULTI

تصنيف النص Parsbert v2.0

HOOSHVARELAB/BERT-FA-BASE-CONG-CLF-DIGIMAG
HOOSHVARELAB/BERT-FA-BASE-CONSALD-CLF-PERSIANNEWS

Parsbert v2.0 ner

HOOSHVARELAB/BERT-FA-BASE-NER-PEYMA
HOOSHVARELAB/BERT-FA-BASE-REN-ARMAN

v1.0

Parsbert V1.0 نموذج

HOOSHVARELAB/BERT-BASE-PARSBERT

Parsbert v1.0 ner

Hooshvarelab/Bert-Base-Parsbert-Peymaner
HOOSHVARELAB/BERT-BASE-PARSBERT-ARMANNER
HOOSHVARELAB/BERT-BASE-PARSBERT-REN

NLP مهام البرنامج التعليمي؟

دفتر
تصنيف النص
تحليل المشاعر
اسم التعرف على الكيان
توليد النص

استشهد

يرجى الاستشهاد بالورقة التالية في منشورك إذا كنت تستخدم بارسبيرت في بحثك:

 @article { ParsBERT , 
    title = { Parsbert: Transformer-based model for Persian language understanding } , 
    DOI = { 10.1007/s11063-021-10528-4 } , 
    journal = { Neural Processing Letters } , 
    author = { Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri } , 
    year = { 2021 }
}

شكر وتقدير

نعبر بموجب هذا امتناننا لبرنامج TensorFlow Research Cloud (TFRC) لتزويدنا بموارد الحساب اللازمة. نشكر أيضًا مجموعة Hooshvare Research Group على تسهيل جمع مجموعات البيانات وتجنب موارد النص على الإنترنت.

المساهمين

مهرداد فرحاني: لينكدين ، تويتر ، جيثب
محمد غاراشورلو: لينكدين ، تويتر ، جيثب
مارزيه فرحاني: لينكدين ، تويتر ، جيثب
محمد مانثوري: لينكدين ، تويتر ، جيثب
فريق Hooshvare: موقع رسمي ، LinkedIn ، Twitter ، Github ، Instagram

الإصدارات

v3.0 (2021-02-28)

يتوفر الإصدار الجديد من Bert V3.0 للفرار اليوم ويمكنه معالجة شخصية غير Joininer من خلال الكتابة الفارسية. كما تم تدريب النموذج على شركة جديدة متعددة الأنواع مع مجموعة جديدة من المفردات.

متاح بواسطة: Hooshvarelab/Bert-Fa-Zwnj-base

v2.0 (2020-09-05)

Parsbert v2.0: قمنا بإعادة بناء المفردات وضبطنا Parsbert v1.1 على الشركة الفارسية الجديدة من أجل توفير بعض الوظائف لاستخدام بارسبيرت في نطاقات أخرى! الأهداف الموضوعية أثناء التدريب هي كما يلي (بعد 300 ألف خطوة).

 ***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05

متاح بواسطة: Hooshvarelab/Bert-Fa-base-uncared

v1.1 (2020-06-24)

Parsbert v1.1: واصلنا التدريب لأكثر من 2.5 مليون خطوة استنادًا إلى نفس Corpora الفارسية وتكوين Bert-Base. الأهداف الموضوعية أثناء التدريب هي على النحو التالي (بعد 2.5 مليون خطوة).

 ***** Eval results *****
global_step = 2575000
loss = 1.3973521
masked_lm_accuracy = 0.70044917
masked_lm_loss = 1.3974043
next_sentence_accuracy = 0.9976562
next_sentence_loss = 0.0088804625

متوفر بواسطة: Hooshvarelab/Bert-Base-Parsbert

v1.0 (2020-05-27)

Parsbert V1: هذا هو الإصدار الأول من Parsbert على أساس Bert-Base. تم تدريب النموذج على شركة فارسية شاسعة لخطوات 1920000. الأهداف الموضوعية أثناء التدريب هي كما يلي (بعد 1.9 مليون خطوة).

 ***** Eval results *****
global_step = 1920000
loss = 2.6646128
masked_lm_accuracy = 0.583321
masked_lm_loss = 2.2517521
next_sentence_accuracy = 0.885625
next_sentence_loss = 0.3884369

متوفر بواسطة: Hooshvarelab/Bert-Base-Parsbert

رخصة

ترخيص Apache 2.0

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-19
الحجم 413.26KB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل