Unduh pytorch attentive lm - unduhan kode sumber pytorch attentive lm

pytorch attentive lm

Kode Sumber AI

1.0.0

Unduh

pytorch-attentive-lm

Repo ini adalah implementasi model RNN yang penuh perhatian untuk tugas pemodelan bahasa.

Pemodelan bahasa dilakukan pada dataset Penntreebank dan Wikuxt-02. File -file tersebut diuraikan sedemikian rupa sehingga setiap contoh pelatihan terdiri dari satu kalimat dari korpus, empuk hingga panjang batch maks 35. Kalimat yang lebih panjang terpotong. Ini dilakukan untuk mengelola perhatian dan memperhatikan hanya kata -kata dalam kalimat (sebelum waktu jika pada timestep t).

A-RNN-LM (jaringan saraf berulang berbasis perhatian untuk pemodelan bahasa) pada awalnya diusulkan dalam dialog yang koheren dengan model bahasa berbasis perhatian (Hongyuan Mei et al. 2016, tautan), dan dalam model bahasa yang penuh perhatian (Salton et al. 2017, tautan).

Model ini terdiri dari menjalankan mekanisme perhatian tradisional pada keadaan tersembunyi sebelumnya dari lapisan RNN enkoder untuk mengkodekan vektor konteks yang kemudian dikombinasikan dengan keadaan tersembunyi yang dikodekan terakhir untuk memprediksi kata berikutnya dalam urutan.

Instalasi dan penggunaan

Ketergantungan:

python=3.7
torch>=1.0.0
nltk
matplotlib
tensorboardX

Instal semua depedensi dan jalankan python main.py

Dataset akan diunduh dan diproses secara otomatis.

Beberapa opsi untuk berjalan adalah kemungkinan menjalankan python main.py --help untuk daftar lengkap.

 usage: main.py [-h] [--batch-size N] [--epochs N] [--lr LR] [--patience P]
               [--seed S] [--log-interval N] [--dataset [{wiki-02,ptb}]]
               [--embedding-size N] [--n-layers N] [--hidden-size N]
               [--positioning-embedding N] [--input-dropout D]
               [--rnn-dropout D] [--decoder-dropout D] [--clip N]
               [--optim [{sgd,adam,asgd}]] [--salton-lr-schedule]
               [--early-stopping-patience P] [--attention]
               [--no-positional-attention] [--tie-weights]
               [--file-name FILE_NAME] [--parallel]

PyTorch Attentive RNN Language Modeling

optional arguments:
  -h, --help            show this help message and exit
  --batch-size N        input batch size for training (default: 64)
  --epochs N            number of epochs to train (default: 40)
  --lr LR               learning rate (default: 30.0)
  --patience P          patience for lr decrease (default: 5)
  --seed S              random seed (default: 123)
  --log-interval N      how many batches to wait before logging training
                        status (default 10)
  --dataset [{wiki-02,ptb}]
                        Select which dataset (default: ptb)
  --embedding-size N    embedding size for embedding layer (default: 20)
  --n-layers N          layer size for RNN encoder (default: 1)
  --hidden-size N       hidden size for RNN encoder (default: 20)
  --positioning-embedding N
                        hidden size for positioning generator (default: 20)
  --input-dropout D     input dropout (default: 0.5)
  --rnn-dropout D       rnn dropout (default: 0.0)
  --decoder-dropout D   decoder dropout (default: 0.5)
  --clip N              value at which to clip the norm of gradients (default:
                        0.25)
  --optim [{sgd,adam,asgd}]
                        Select which optimizer (default: sgd)
  --salton-lr-schedule  Enables same training schedule as Salton et al. 2017
                        (default: False)
  --early-stopping-patience P
                        early stopping patience (default: 25)
  --attention           Enable standard attention (default: False)
  --no-positional-attention
                        Disable positional attention (default: False)
  --tie-weights         Tie embedding and decoder weights (default: False)
  --file-name FILE_NAME
                        Specific filename to save under (default: uses params
                        to generate)
  --parallel            Enable using GPUs in parallel (default: False)

Hasil

Hasil pada PTB:

Model	Jumlah parameter	Validasi kebingungan	Uji kebingungan
LSTM Baseline (Merity et al., 2017)	7.86m	66.77	64.96
LM yang penuh perhatian (Salton et al. 2017)	7.06m	79.09	76.56
LM Posisi Perhatian	6.9m	72.69	70.92

Hasil pada wikitext-02:

Model	Jumlah parameter	Validasi kebingungan	Uji kebingungan
LSTM Baseline (Merity et al., 2017)	7.86m	72.43	68.50
LM yang penuh perhatian (Salton et al. 2017)	7.06m	78.43	74.37
LM Posisi Perhatian	6.9m	74.39	70.73

Reproduksi Hasil:

Anda dapat menjalankan kembali semua model yang menghasilkan tabel di atas hanya dengan menjalankan:

python test.py

Namun harap dicatat bahwa beberapa model ini memakan waktu lebih dari 8 jam untuk menyatu pada GPU 1080 tunggal, sehingga total run-time dari percobaan bisa sekitar 2 hari.

Dukungan multi-GPU dinonaktifkan secara default karena terbukti memiliki dampak negatif pada hasil. Selain itu, karena batch kecil dalam praktiknya sebenarnya tidak jauh lebih cepat karena banyak waktu dihabiskan untuk mengirim tensor ke GPU masing -masing.

Membandingkan perhatian

Berikut ini ditampilkan perbandingan berdampingan dari dua distribusi perhatian pada contoh:

Kata-kata dalam sumbu x adalah input pada setiap langkah waktu dan kata-kata dalam sumbu y adalah target. Kedua model dilatih pada dataset Wikuxt-02 hingga konvergensi.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-10
ukuran 18.12KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Halaman web pengakuan online LM memproduksi kode sumber PHP versi yang dipercantik versi resmi

2022-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua