attention is all you need pytorch

attention is all you need pytorch

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ความสนใจคือสิ่งที่คุณต้องการ: การใช้งาน pytorch

นี่คือการใช้งาน Pytorch ของโมเดลหม้อแปลงใน "ความสนใจคือสิ่งที่คุณต้องการ" (Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, Arxiv, 2017)

ลำดับใหม่ในการจัดลำดับเฟรมเวิร์กใช้ กลไกการใส่ใจในตนเอง แทนที่จะใช้การดำเนินการ convolution หรือโครงสร้างที่เกิดขึ้นซ้ำและบรรลุประสิทธิภาพที่ล้ำสมัยใน งานการแปลภาษาอังกฤษเป็นภาษาอังกฤษไปยังเยอรมัน (2017/06/12)

การใช้งาน TensorFlow อย่างเป็นทางการสามารถพบได้ใน: Tensorflow/Tensor2tensor

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับกลไกการดูแลตนเองคุณสามารถอ่าน "การฝังประโยคที่มีโครงสร้างด้วยตนเองที่มีโครงสร้าง"

การฝึกอบรมสนับสนุนโครงการและการแปลด้วยรูปแบบที่ผ่านการฝึกอบรมแล้ว

โปรดทราบว่าโครงการนี้ยังคงเป็นงานที่กำลังดำเนินอยู่

ชิ้นส่วนที่เกี่ยวข้องกับ BPE ยังไม่ได้ทดสอบอย่างเต็มที่

หากมีข้อเสนอแนะหรือข้อผิดพลาดใด ๆ อย่าลังเลที่จะยิงปัญหาเพื่อแจ้งให้เราทราบ -

การใช้งาน

wmt'16 การแปลหลายรูปแบบ: de-en

ตัวอย่างของการฝึกอบรมสำหรับงานการแปล WMT'16 Multimodal (http://www.statmt.org/wmt16/multimodal-task.html)

0) ดาวน์โหลดโมเดลภาษา Spacy

 # conda install -c conda-forge spacy 
python -m spacy download en
python -m spacy download de

1) ประมวลผลข้อมูลด้วย Torchtext และ Spacy

python preprocess.py -lang_src de -lang_trg en -share_vocab -save_data m30k_deen_shr.pkl

2) ฝึกอบรมแบบจำลอง

python train.py -data_pkl m30k_deen_shr.pkl -log m30k_deen_shr -embs_share_weight -proj_share_weight -label_smoothing -output_dir output -b 256 -warmup 128000 -epoch 400

3) ทดสอบโมเดล

python translate.py -data_pkl m30k_deen_shr.pkl -model trained.chkpt -output prediction.txt

[(WIP)] WMT'17 การแปลหลายรูปแบบ: de-en w/ bpe

1) ดาวน์โหลดและประมวลผลข้อมูลด้วย BPE:

เนื่องจากอินเทอร์เฟซไม่ได้รวมคุณต้องสลับการเรียกใช้ฟังก์ชันหลักจาก main_wo_bpe เป็น main

python preprocess.py -raw_dir /tmp/raw_deen -data_dir ./bpe_deen -save_data bpe_vocab.pkl -codes codes.txt -prefix deen

2) ฝึกอบรมแบบจำลอง

python train.py -data_pkl ./bpe_deen/bpe_vocab.pkl -train_path ./bpe_deen/deen-train -val_path ./bpe_deen/deen-val -log deen_bpe -embs_share_weight -proj_share_weight -label_smoothing -output_dir output -b 256 -warmup 128000 -epoch 400

3) ทดสอบโมเดล (ไม่พร้อม)

สิ่งที่ต้องทำ:
- โหลดคำศัพท์
- ทำการถอดรหัสหลังจากการแปล

ผลงาน

การฝึกอบรม

การตั้งค่าพารามิเตอร์:
- ชุดขนาด 256
- อุ่นเครื่องขั้นตอนที่ 4000
- ยุค 200
- LR_MUL 0.5
- ฉลากให้เรียบ
- อย่าใช้ BPE และคำศัพท์ที่ใช้ร่วมกัน
- เป้าหมายการฝัง / การแชร์น้ำหนักเลเยอร์เชิงเส้น pre-softmax pre-softmax

การทดสอบ

เร็วๆ นี้.

สิ่งที่ต้องทำ

การประเมินผลของข้อความที่สร้างขึ้น
พล็อตน้ำหนักความสนใจ

การรับทราบ

ชิ้นส่วนที่เข้ารหัสคู่ไบต์จะถูกยืมมาจาก Subword-NMT
โครงสร้างโครงการสคริปต์บางอย่างและขั้นตอนการประมวลผลชุดข้อมูลบางอย่างถูกยืมอย่างหนักจาก OpenNMT/OpenNMT-PY
ขอบคุณสำหรับคำแนะนำจาก @srush, @iamalbert, @zessay, @julesgm, @zijianzhao และ @huanghoujing

ขยาย

ข้อมูลเพิ่มเติม