تنزيل universal distillation - تنزيل رمز مصدر universal distillation

universal distillation

كود الذكاء الاصطناعي

1.0.0

تنزيل

تقطير نموذج اللغة العالمي

اختبار CI

وصف

قم بإنشاء نماذج مقطرة من كل نموذج لغة مقنعة على مركز Huggingface مع أمر باش واحد فقط.

سمات:

تقطير غلواني من نماذج BERT.
التدريب التلقائي الموزع ومتعدد GPU.
تقييم باستخدام التدابير القياسية وأكثر تقدما ، مثل pseudo-perplexity.
أضف قيودًا لتقليل الصور النمطية باستخدام تقنية FairDistillation الخاصة بنا.
القادم : تقطير نماذج متعددة في نموذج واحد ، مع ترجمة رمزية آلية.

كيفية الجري

أولاً ، استنساخ المشروع وتثبيت التبعيات.

 # clone project   
git clone https://github.com/iPieter/universal-distillation

# install project   
cd universal-distillation
pip install -e .   
pip install -r requirements.txt

التقطير باستخدام واجهة سطر الأوامر

في هذا البرنامج التعليمي ، سوف نوضح لك كيفية إعداد مهمة التقطير من سطر الأوامر. ستحتاج إلى شيئين:

نموذج المعلم الذي تريد التقطير. ستعمل جميع النماذج من مستودع نموذج Hugginface برأس ملء / MLM. في هذا البرنامج التعليمي ، سوف نستخدم النموذج القياسي bert-base-uncased .
مجموعة بيانات تريد استخدامها للتقطير. في هذا البرنامج التعليمي ، نحن مجموعة بيانات "صغيرة" ، ولكن عالية الجودة ،: Europarl.

الخطوة 1: الحصول على مجموعة البيانات الخاصة بك

سوف نستخدم القسم الإنجليزي في Europarl Corpus. هذا مجموعة موازية عالية الجودة للغاية من الباروس الأوروبي الذي أنشأه المترجمين الفوريين والمترجمين المحترفين. كما أنه صغير جدًا بالنسبة إلى مجموعة لغة في الوقت الحاضر ، فقط 114 ميغابايت ، ولكن بالنسبة لبرنامج التقطير الخاص بنا ، لا بأس بذلك.

wget https://opus.nlpl.eu/download.php ? f = Europarl/v8/mono/en.txt.gz -O en.txt.gz
gunzip en.txt.gz

يتم الآن فصل البيانات وتخزينها في الملف en.txt .

الخطوة 2: ابدأ التدريب

الآن لدينا البيانات ، يمكننا البدء في التدريب. سيحدث تنزيل نموذج المعلم تلقائيًا ، لذلك لا داعي للقيام بذلك يدويًا. إذا شعرت أن هذا يستغرق وقتًا طويلاً وتريد فقط تجربة التدريب ، على سبيل المثال للتعرف على التوقيت ، يمكنك إضافة --limit_train_batches N . هذا يحد من كل عصر على دفعات N أثناء التدريب.

python universal_distillation/distillation.py 
    --batch_size 8 
    --gpus 1 
    --max_epochs 3 
    --save_dir my_distilled_model/ 
    --teacher bert-base-uncased 
    --data en.txt

هناك بعض الأشياء التي تحدث في الخلفية بمجرد تشغيل هذا الأمر. أولاً ، تنشئ هذه المكتبة طالبًا ونموذجًا للمعلم. المعلم bert-base-uncased وسيستخدم الطالب نفس الهندسة المعمارية مثل المعلم افتراضيًا ، فقط عدد الرؤوس أصغر: 6 بدلاً من 12. نظرًا لأننا نتدرب على مجال معين (Europarl) ، يجب أن يكون هذا كافيًا. بالطبع ، يمكنك مزج ومطابقة المعلمين المختلفين والأكبر مع طلاب أصغر ، ولكن الأداء سيختلف كثيرًا.

ثانياً ، تقوم مكتبة Huggingface بتنزيل نموذج المعلم و Tokenizer. ثالثًا ، يتم تحميل مجموعة البيانات من القرص وتهيئته باستخدام الرمز المميز ، لاحظ أن الرمز المميز نفسه يحدث لاحقًا بشكل افتراضي. أخيرًا ، تبدأ حلقة التقطير.

الخطوة 3: استخدم النموذج الخاص بك

أخيرًا ، يمكنك استخدام النموذج مع مكتبة Huggingface! يتم حفظ جميع الملفات من الطالب (نموذج Pytorch و Tokenizer) في المجلد الذي حددناه سابقًا: my_distilled_model/ . يمكنك استيراد النموذج من هذا المجلد مباشرة واختبار مهمة نمذجة اللغة المقنعة مع 3 أسطر فقط:

 from transformers import pipeline
p = pipeline ( "fill-mask" , model = "my_distilled_model/" )

p ( "This is a [MASK]." )

على الرغم من أن هذا كان مثالًا على المضيق ، إلا أن هذا غالبًا ما يكون كافياً لإنشاء نموذج الخاص بك الذي تم تكييفه. في هذه الحالة ، إنه

تقييم نماذج اللغة

يمكنك أيضًا تشغيل تقييم جوهري باستخدام pseudo-perplexity. تحتاج إلى تحديد المعلم والنموذج المقطر ، ولكن إذا قمت بتشغيل التقييم فقط ، فيمكنك إعطاء النموذج المستهدف لكلتا الوسيطتين.

python universal_distillation/evaluation.py 
    --gpus=0 
    --limit_test_batches=500 
    --teacher=pdelobelle/robbert-v2-dutch-base
    --data=data/oscar_dutch/nl_dedup_part_2.txt 
    --checkpoint=DTAI-KULeuven/robbertje-39-gb-non-shuffled

Fairdistillation

تستخدم قاعدة الكود هذه أيضًا لورقة ECML-PKDD 2022 ، حيث نجمع بين تقطير المعرفة لنماذج اللغة مع قيود الإنصاف. القيود التي اختبرناها في الورقة هي استبدال المضيق للضمائر بين الجنسين ، لكن القانون يدعم أي استبدال واحد. يمكن إضافة هذه إلى عملية التقطير من خلال تحديد الرموز التي تريد تحصيلها. على سبيل المثال ، he she معرفات رمزية 2016 و 2002 ، حتى نتمكن من تحديد زوج بديل مع كلا الرموز. الاحتمالات على كلا الرموبين الحصول على المساواة.

BaseTransformer إضافة الرموز المميزة عن طريق تعديل universal-distillation/distillation.py .

 constraints = [[ 2016 , 2002 ]]  # she  # he
model = BaseTransformer ( args . teacher , constraints = constraints , ** vars ( args ))

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-09
الحجم 27.56KB
من Github

تطبيقات ذات صلة

Universal Downloader

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
موقع UWA العالمي باسم هذا

2013-12-24

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل