tying wv and wc - tying wv and wc Sumber Code Download

tying wv and wc

Kode Sumber AI

1.0.0

Unduh

Mengikat kata -kata vektor dan pengklasifikasi kata: kerangka kerugian untuk pemodelan bahasa

Implementasi untuk "mengikat vektor kata dan pengklasifikasi kata: kerangka kerugian untuk pemodelan bahasa"

Makalah ini mencoba memanfaatkan keragaman makna kata untuk melatih jaringan saraf yang dalam.

Ringkasan Kertas

Motivasi

Dalam pemodelan bahasa (prediksi urutan kata), kami ingin mengekspresikan keragaman makna kata.
Misalnya, ketika memprediksi kata di sebelah "pisang adalah ___ lezat, jawabannya adalah" buah ", tetapi" permen "," makanan "juga baik -baik saja. Tetapi pengajaran vektor satu-panas biasa tidak cocok untuk mencapainya. Karena kata -kata serupa diabaikan, tetapi kata jawaban yang tepat.

Jika kita dapat menggunakan bukan satu-panas tetapi "distribusi", kita dapat mengajarkan varietas ini.

Metode

Jadi kami menggunakan "distribusi kata" untuk mengajarkan model. Distribusi ini diperoleh dari kata jawaban dan matriks pencarian yang menanamkan.

Jika kita menggunakan kehilangan tipe distribusi ini, maka kita dapat membuktikan kesetaraan antara embedding input dan matriks proyeksi output.

Untuk menggunakan kehilangan tipe distribusi dan penyematan input dan pembatasan kesetaraan proyeksi output meningkatkan kebingungan model.

Eksperimen

Pelaksanaan

Keras: untuk mengimplementasikan model
Chazutsu: Mengunduh Dataset

Hasil

Jalankan 15 zaman di Dataset Penn Treebank.
- Skor perplexity itu besar, saya tidak bisa memiliki kepercayaan diri implementasinya. Saya menunggu permintaan tarik!
augmentedmodel bekerja lebih baik daripada baseline ( onehotmodel ), dan augmentedmodel_tying mengungguli baseline!
Anda dapat menjalankan percobaan ini dengan python train.py

Saya menerapkan versi LSTM stateful. Hasilnya sebagai berikut.

Kebingungan ditingkatkan (tetapi zaggy), dan metode pengikat sedikit kehilangan efeknya.
Untuk menggunakan LSTM stateful di keras terlalu keras (terutama reset_states dalam set validasi), jadi mungkin ada beberapa batas yang disertakan.

Validasi tambahan

Pada awal pelatihan, menanamkan matriks untuk menghasilkan "distribusi guru" belum dilatih. Jadi metode yang diusulkan memiliki sedikit cacat pada awalnya.
- Tapi keterlambatan pelatihan tidak diamati
Meningkatkan suhu (alpha) secara bertahap dapat meningkatkan kecepatan pelatihan.
Untuk menggunakan vektor kata pra-terlatih, atau memperbaiki bobot matriks embedding untuk beberapa interval (teknik target tetap pada pembelajaran penguatan (silakan merujuk pembelajaran penguatan yang mendalam )) juga akan berpengaruh pada pelatihan.

Ngomong -ngomong, contoh pytorch sudah menggunakan metode pengikat! Jangan takut menggunakannya!

Memperluas

Informasi Tambahan