تطبيق XLNet بسيط مع غلاف Pytorch!
$ git clone https://github.com/graykode/xlnet-Pytorch && cd xlnet-Pytorch
# To use Sentence Piece Tokenizer(pretrained-BERT Tokenizer)
$ pip install pytorch_pretrained_bert
$ python main.py --data ./data.txt --tokenizer bert-base-uncased
--seq_len 512 --reuse_len 256 --perm_size 256
--bi_data True --mask_alpha 6 --mask_beta 1
--num_predict 85 --mem_len 384 --num_epoch 100أيضًا ، يمكنك تشغيل التعليمات البرمجية في Google Colab بسهولة.

—data (سلسلة): .txt ملف للتدريب. لا يهم النص متعدد الأسلحة. أيضا ، سيكون ملف واحد موتر واحد. الافتراضي: data.txt
—tokenizer (سلسلة): لقد استخدمت للتو Huggingface/Pytorch-prated-Bert-Bert's Tokenizer باعتباره رمزًا من الكلمات الفرعية (سأقوم بتحريره إلى قطعة الجملة قريبًا). يمكنك الاختيار في bert-base-uncased ، bert-large-uncased bert-base-cased ، bert-large-cased . الافتراضي: bert-base-uncased
—seq_len (عدد صحيح): طول التسلسل. الافتراضي: 512
—reuse_len (Interger): عدد الرمز المميز الذي يمكن إعادة استخدامه كذاكرة. يمكن أن يكون نصف seq_len . الافتراضي: 256
—perm_size (interger): طول أطول التقليب. يمكن ضبطها على إعادة use_len. الافتراضي: 256
--bi_data (Boolean): ما إذا كنت ستنشئ بيانات ثنائية الاتجاه. إذا كان bi_data True ، فيجب أن يكون biz(batch size) حتى رقمًا. الافتراضي: False
—mask_alpha (Interger): كم عدد الرموز التي تشكل مجموعة. defalut: 6
—mask_beta (عدد صحيح): كم عدد الرموز المميزة للقناع داخل كل مجموعة. الافتراضي: 1
—num_predict (Interger): NUM من الرموز للتنبؤ. في الورق ، يعني التنبؤ الجزئي. الافتراضي: 85
—mem_len (interger): عدد الخطوات إلى ذاكرة التخزين المؤقت في بنية المحول XL. الافتراضي: 384
—num_epoch (Interger): عدد الحقبة. الافتراضي: 100
XLNET هي طريقة تعليمية جديدة لتمثيل اللغة غير خاضعة للإشراف تعتمد على هدف نمذجة لغة التقليب المعممة الجديدة. بالإضافة إلى ذلك ، توظف XLNET Transformer-XL كنموذج للعمود الفقري ، حيث عرض أداءً ممتازًا لمهام اللغة التي تتضمن سياقًا طويلًا.
| نموذج | mnli | qnli | QQP | RTE | SST-2 | MRPC | كولا | STS-B |
|---|---|---|---|---|---|---|---|---|
| بيرت | 86.6 | 92.3 | 91.3 | 70.4 | 93.2 | 88.0 | 60.6 | 90.0 |
| xlnet | 89.8 | 93.9 | 91.8 | 83.8 | 95.6 | 89.2 | 63.6 | 91.8 |
كيف استفاد XLNET من الانحدار التلقائي ونماذج ترميز السيارات؟


نمذجة لغة التقليب مع التنبؤ الجزئي
نمذجة لغة التقليب 
التنبؤ الجزئي 
اثنين من الاهتمام الذاتي مع تمثيل مدرك الهدف
اثنين من الشجار الذاتية

تمثيل مدرك الهدف
