attention is all you need pytorch Download - attention is all you need pytorch

attention is all you need pytorch

Kode sumber lainnya

1.0.0

Unduh

Perhatian adalah semua yang Anda butuhkan: Implementasi Pytorch

Ini adalah implementasi Pytorch dari model transformator dalam "perhatian adalah yang Anda butuhkan" (Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, Arxiv, 2017).

Urutan baru untuk kerangka urutan memanfaatkan mekanisme perhatian diri , alih-alih operasi konvolusi atau struktur berulang, dan mencapai kinerja canggih pada tugas terjemahan Bahasa Inggris-ke-Jerman 2014 . (2017/06/12)

Implementasi TensorFlow resmi dapat ditemukan di: TensorFlow/Tensor2Tensor.

Untuk mempelajari lebih lanjut tentang mekanisme perhatian diri, Anda bisa membaca "penyematan kalimat diri yang terstruktur".

Pelatihan Dukungan Proyek dan Terjemahan dengan model terlatih sekarang.

Perhatikan bahwa proyek ini masih dalam proses.

Bagian terkait BPE belum sepenuhnya diuji.

Jika ada saran atau kesalahan, jangan ragu untuk memecat masalah untuk memberi tahu saya. :)

Penggunaan

WMT'16 terjemahan multimodal: de-en

Contoh pelatihan untuk tugas terjemahan multimodal WMT'16 (http://www.statmt.org/wmt16/multimodal-task.html).

0) Unduh model bahasa Spacy.

 # conda install -c conda-forge spacy 
python -m spacy download en
python -m spacy download de

1) Preprocess Data dengan TorchText dan Spacy.

python preprocess.py -lang_src de -lang_trg en -share_vocab -save_data m30k_deen_shr.pkl

2) Latih model

python train.py -data_pkl m30k_deen_shr.pkl -log m30k_deen_shr -embs_share_weight -proj_share_weight -label_smoothing -output_dir output -b 256 -warmup 128000 -epoch 400

3) Uji model

python translate.py -data_pkl m30k_deen_shr.pkl -model trained.chkpt -output prediction.txt

[(WIP)] terjemahan multimodal wmt'17: de-en w/ bpe

1) Unduh dan preprocess data dengan BPE:

Karena antarmuka tidak disatukan, Anda perlu mengganti panggilan fungsi utama dari main_wo_bpe ke main .

python preprocess.py -raw_dir /tmp/raw_deen -data_dir ./bpe_deen -save_data bpe_vocab.pkl -codes codes.txt -prefix deen

2) Latih model

python train.py -data_pkl ./bpe_deen/bpe_vocab.pkl -train_path ./bpe_deen/deen-train -val_path ./bpe_deen/deen-val -log deen_bpe -embs_share_weight -proj_share_weight -label_smoothing -output_dir output -b 256 -warmup 128000 -epoch 400

3) Uji model (tidak siap)

TODO:
- Muat kosakata.
- Lakukan decoding setelah terjemahan.

Pertunjukan

Pelatihan

Pengaturan Parameter:
- Ukuran Batch 256
- Langkah Pemanasan 4000
- Epoch 200
- LR_MUL 0.5
- label smoothing
- Jangan menerapkan BPE dan kosakata bersama
- Target embedding / pra-softmax linear linear bobot berbagi.

Pengujian

segera hadir.

Todo

Evaluasi pada teks yang dihasilkan.
Plot berat perhatian.

Pengakuan

Bagian pengkodean pasangan byte dipinjam dari Subword-NMT.
Struktur proyek, beberapa skrip dan langkah-langkah preprocessing dataset sangat dipinjam dari OpenNMT/OpenNMT-PY.
Terima kasih atas saran dari @srush, @iamalbert, @zessay, @julesgm, @zijianzhao, dan @huanghoujing.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-16
ukuran 27.53KB
Berasal dari Github

Aplikasi Terkait

pytorch image models

2024-11-03
Cinta Ada di Sekitar

2023-10-24
Maukah kamu siput

2023-07-12
Kebutuhan akan Kecepatan Seluler

2023-07-11
Anda harus

2022-08-05
Itu dia

2022-07-27

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua