Unduh f lm - Unduh Kode Sumber f lm

f lm

Kode Sumber AI

1.0.0

Unduh

F-lm

Pemodelan Bahasa. Basis kode ini berisi implementasi sel G-LSTM dan F-LSTM dari [1]. Ini juga mungkin mengandung beberapa percobaan yang sedang berlangsung.

Kode ini bercabang dari https://github.com/rafaljozefowicz/lm dan berisi baseline model bahasa "biglstm" dari [2].

Kode saat ini berjalan pada TensorFlow R1.5 dan mendukung paralelisme data multi-GPU menggunakan pembaruan gradien yang disinkronkan.

Kebingungan

~~Pada satu miliar kata patokan menggunakan 8 GPU dalam satu DGX-1, Big G-LSTM G4 mampu mencapai 24,29 setelah 2 minggu pelatihan dan 23,36 setelah 3 minggu.~~

Pada 02/06/2018 kami menemukan masalah dengan pengaturan eksperimental kami yang membuat angka kebingungan yang terdaftar di kertas tidak valid.

Lihat nomor saat ini dalam tabel di bawah ini.

Di stasiun DGX, setelah 1 minggu pelatihan menggunakan semua 4 GPU (Tesla V100) dan ukuran batch 256 per GPU:

Model	Kebingungan	Tangga	WPS
BIGLSTM	35.1	~ 0,99m	~ 33.8k
Big F-LSTM F512	36.3	~ 1.67m	~ 56.5k
Big G-LSTM G4	40.6	~ 1.65m	~ 56k
Big G-LSTM G2	36	~ 1.37m	~ 47.1k
Big G-LSTM G8	39.4	~ 1,7m	~ 58.5

Dependensi

TensorFlow R1.5
Python 2.7 (harus bekerja dengan Python 3 juga)
Dataset Benchmark Kata 1B (https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark untuk mendapatkan data)

Untuk berlari

Dengan asumsi direktori data ada di: /raid/okuchaiev/Data/LM1B/1-billion-word-language-modeling-benchmark-r13output/ , mengeksekusi:

 export CUDA_VISIBLE_DEVICES=0,1,2,3

SECONDS=604800
LOGSUFFIX=FLSTM-F512-1week

python /home/okuchaiev/repos/f-lm/single_lm_train.py --logdir=/raid/okuchaiev/Workspace/LM/GLSTM-G4/$LOGSUFFIX --num_gpus=4 --datadir=/raid/okuchaiev/Data/LM/LM1B/1-billion-word-language-modeling-benchmark-r13output/ --hpconfig run_profiler=False,float16_rnn=False,max_time=$SECONDS,num_steps=20,num_shards=8,num_layers=2,learning_rate=0.2,max_grad_norm=1,keep_prob=0.9,emb_size=1024,projected_size=1024,state_size=8192,num_sampled=8192,batch_size=256,fact_size=512  >> train_$LOGSUFFIX.log 2>&1

python /home/okuchaiev/repos/f-lm/single_lm_train.py --logdir=/raid/okuchaiev/Workspace/LM/GLSTM-G4/$LOGSUFFIX --num_gpus=1 --mode=eval_full --datadir=/raid/okuchaiev/Data/LM/LM1B/1-billion-word-language-modeling-benchmark-r13output/ --hpconfig run_profiler=False,float16_rnn=False,max_time=$SECONDS,num_steps=20,num_shards=8,num_layers=2,learning_rate=0.2,max_grad_norm=1,keep_prob=0.9,emb_size=1024,projected_size=1024,state_size=8192,num_sampled=8192,batch_size=1,fact_size=512

Untuk menggunakan sel G-LSTM, tentukan parameter num_of_groups .
Untuk menggunakan sel F-LSTM, tentukan parameter fact_size .

Perhatikan, bahwa pembaca data saat ini mungkin kehilangan beberapa token saat membangun mini-batch yang dapat memiliki efek kecil pada kebingungan akhir.

Untuk hasil yang paling akurat , gunakan batch_size = 1 dan num_steps = 1 dalam evaluasi. Terima kasih kepada Ciprian karena memperhatikan hal ini.

Untuk mengubah hyper-parameter

Perintah tersebut menerima dan argumen tambahan --hpconfig yang memungkinkan untuk mengesampingkan berbagai hyper-parameter, termasuk:

Batch_size = 128 - Ukuran batch per GPU . Ukuran Batch Global = Batch_Size*num_gpus
num_steps = 20 - Jumlah timesteps sel LSTM
num_shards = 8 - matriks embedding dan softmax dibagi menjadi banyak pecahan ini
num_layers = 1 - jumlah lapisan LSTM
learning_rate = 0,2 - Tingkat belajar untuk pengoptimal
MAX_GRAD_NORM = 10.0 - Norma gradien maksimum yang dapat diterima untuk lapisan LSTM
Keep_prob = 0,9 - Dropout Keep Probability
Optimizer = 0 - Pengoptimal mana yang akan digunakan: Adagrad (0), momentum (1), Adam (2), RMSProp (3), SGD (4)
Vocab_size = 793470 - Ukuran Vok
EMB_SIZE = 512 - Ukuran embedding (harus sama dengan Projected_size)
state_size = 2048 - Ukuran sel LSTM
Projected_size = 512 - Ukuran proyeksi LSTM
num_sampled = 8192 - Pelatihan menggunakan sampel softmax, jumlah sampel)
do_summaries = false - menghasilkan statistik berat dan lulusan untuk Tensorboard
max_time = 180 - waktu maks (dalam detik) untuk dijalankan
fact_size - untuk menggunakan sel f -lstm, ini harus diatur ke ukuran faktor
num_of_groups = 0 - Untuk menggunakan sel G -LSTM, ini harus diatur ke jumlah grup
save_model_every_min = 30 - seberapa sering ke pos pemeriksaan
save_summary_every_min = 16 - seberapa sering untuk menyimpan ringkasan
use_residual = false - apakah akan menggunakan koneksi residu LSTM