attention is all you need pytorch

attention is all you need pytorch

شفرة المصدر الأخرى

1.0.0

تنزيل

الانتباه هو كل ما تحتاجه: تطبيق Pytorch

هذا تطبيق Pytorch لنموذج المحولات في "الانتباه هو كل ما تحتاجه" (Ashish Vaswani ، Noam Shazeer ، Niki Parmar ، Jakob Uszkoreit ، Llion Jones ، Aidan N. Gomez ، Lukasz Kaiser ، Illia Polosukhin ، Arxiv ، 2017).

يستخدم التسلسل الجديد إلى إطار التسلسل آلية الاهتمام الذاتي ، بدلاً من تشغيل الالتواء أو الهيكل المتكرر ، وتحقيق الأداء الحديث في مهمة الترجمة الإنجليزية إلى الألمانية 2014 . (2017/06/12)

يمكن العثور على تنفيذ TensorFlow الرسمي في: TensorFlow/Tensor2Tensor.

لمعرفة المزيد حول آلية الاهتمام الذاتي ، يمكنك قراءة "جملة منظمة ذاتية التضمين".

تدريب دعم المشروع والترجمة مع نموذج مدرب الآن.

لاحظ أن هذا المشروع لا يزال عملًا مستمرًا.

الأجزاء ذات الصلة BPE لم يتم اختبارها بالكامل بعد.

إذا كان هناك أي اقتراح أو خطأ ، فلا تتردد في إطلاق مشكلة لإخبارنا بذلك. سائدا

الاستخدام

ترجمة متعددة الوسائط WMT'16: De-en

مثال على التدريب لمهمة الترجمة متعددة الوسائط WMT'16 (http://www.statmt.org/wmt16/multimodal-task.html).

0) قم بتنزيل نموذج لغة Spacy.

 # conda install -c conda-forge spacy 
python -m spacy download en
python -m spacy download de

1) المعالجة المسبقة للبيانات مع torchtext و spacy.

python preprocess.py -lang_src de -lang_trg en -share_vocab -save_data m30k_deen_shr.pkl

2) تدريب النموذج

python train.py -data_pkl m30k_deen_shr.pkl -log m30k_deen_shr -embs_share_weight -proj_share_weight -label_smoothing -output_dir output -b 256 -warmup 128000 -epoch 400

3) اختبار النموذج

python translate.py -data_pkl m30k_deen_shr.pkl -model trained.chkpt -output prediction.txt

[(WIP)] ترجمة متعددة الوسائط WMT'17: De-en w/ bpe

1) تنزيل البيانات والمعالجة المسبقة مع BPE:

نظرًا لأن الواجهات غير موحدة ، فأنت بحاجة إلى تبديل استدعاء الوظيفة الرئيسية من main_wo_bpe إلى main .

python preprocess.py -raw_dir /tmp/raw_deen -data_dir ./bpe_deen -save_data bpe_vocab.pkl -codes codes.txt -prefix deen

2) تدريب النموذج

python train.py -data_pkl ./bpe_deen/bpe_vocab.pkl -train_path ./bpe_deen/deen-train -val_path ./bpe_deen/deen-val -log deen_bpe -embs_share_weight -proj_share_weight -label_smoothing -output_dir output -b 256 -warmup 128000 -epoch 400

3) اختبار النموذج (غير جاهز)

تودو:
- تحميل المفردات.
- أداء فك التشفير بعد الترجمة.

أداء

تمرين

إعدادات المعلمة:
- حجم الدُفعة 256
- خطوة الاحماء 4000
- عصر 200
- LR_MUL 0.5
- تسمية تجانس
- لا تقم بتطبيق BPE والمفردات المشتركة
- الهدف التضمين / ما قبل softmax مشاركة وزن الطبقة الخطية.

الاختبار

قريباً.

تودو

تقييم على النص الذي تم إنشاؤه.
مؤامرة وزن الانتباه.

شكر وتقدير

يتم استعارة أجزاء ترميز زوج البايت من الكلمات الفرعية NMT.
يتم استعارة بنية المشروع ، وبعض البرامج النصية وخطوات معالجة مجموعة البيانات بشكل كبير من OpenNMT/OpenNMT-PY.
شكرًا على الاقتراحات المقدمة من srush و Aiamalbert و Zessay و @julesgm و @zijianzhao و @huanghoujing.

يوسع

معلومات إضافية