f lm Download - f lm Source Code Download

f lm

كود الذكاء الاصطناعي

1.0.0

تنزيل

F-LM

نمذجة اللغة. تحتوي قاعدة البيانات هذه على تنفيذ خلايا G-LSTM و F-LSTM من [1]. قد تحتوي أيضًا على بعض التجارب المستمرة.

تم تشويه هذا الرمز من https://github.com/rafaljozefowicz/lm ويحتوي على خط الأساس "biglstm" الأساس من [2].

يتم تشغيل الكود الحالي على TensorFlow R1.5 ويدعم موازاة البيانات المتعددة GPU باستخدام تحديثات التدرج المتزامن.

الحيرة

على معيار مليار كلمة باستخدام 8 وحدات معالجة الرسومات في واحد DGX-1 ، تمكن Big G-LSTM G4 من تحقيق 24.29 بعد أسبوعين من التدريب و 23.36 بعد 3 أسابيع.

في 02/06/2018 ، وجدنا مشكلة مع الإعداد التجريبي الذي يجعل أرقام الحيرة المدرجة في الورقة غير صالحة.

انظر الأرقام الحالية في الجدول أدناه.

في محطة DGX ، بعد أسبوع واحد من التدريب باستخدام جميع وحدات معالجة الرسومات الأربعة (Tesla V100) وحجم دفعة 256 لكل وحدة معالجة الرسومات:

نموذج	الحيرة	خطوات	WPS
biglstm	35.1	~ 0.99m	~ 33.8k
Big F-LSTM F512	36.3	~ 1.67m	~ 56.5k
كبير G-LSTM G4	40.6	~ 1.65m	~ 56k
كبير G-LSTM G2	36	~ 1.37m	~ 47.1k
كبير G-LSTM G8	39.4	~ 1.7m	~ 58.5

التبعيات

Tensorflow R1.5
Python 2.7 (يجب أن تعمل مع Python 3 أيضًا)
1B Word Benchmark DataSet (https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark للحصول على البيانات)

لتشغيل

على افتراض أن دليل البيانات موجود في: /raid/okuchaiev/Data/LM1B/1-billion-word-language-modeling-benchmark-r13output/ : تنفيذ: تنفيذ:

 export CUDA_VISIBLE_DEVICES=0,1,2,3

SECONDS=604800
LOGSUFFIX=FLSTM-F512-1week

python /home/okuchaiev/repos/f-lm/single_lm_train.py --logdir=/raid/okuchaiev/Workspace/LM/GLSTM-G4/$LOGSUFFIX --num_gpus=4 --datadir=/raid/okuchaiev/Data/LM/LM1B/1-billion-word-language-modeling-benchmark-r13output/ --hpconfig run_profiler=False,float16_rnn=False,max_time=$SECONDS,num_steps=20,num_shards=8,num_layers=2,learning_rate=0.2,max_grad_norm=1,keep_prob=0.9,emb_size=1024,projected_size=1024,state_size=8192,num_sampled=8192,batch_size=256,fact_size=512  >> train_$LOGSUFFIX.log 2>&1

python /home/okuchaiev/repos/f-lm/single_lm_train.py --logdir=/raid/okuchaiev/Workspace/LM/GLSTM-G4/$LOGSUFFIX --num_gpus=1 --mode=eval_full --datadir=/raid/okuchaiev/Data/LM/LM1B/1-billion-word-language-modeling-benchmark-r13output/ --hpconfig run_profiler=False,float16_rnn=False,max_time=$SECONDS,num_steps=20,num_shards=8,num_layers=2,learning_rate=0.2,max_grad_norm=1,keep_prob=0.9,emb_size=1024,projected_size=1024,state_size=8192,num_sampled=8192,batch_size=1,fact_size=512

لاستخدام خلية G-LSTM حدد معلمة num_of_groups .
لاستخدام خلية F-LSTM ، حدد معلمة fact_size .

لاحظ أن قارئ البيانات الحالي قد يفوتك بعض الرموز المميزة عند إنشاء مكامن صغيرة يمكن أن يكون لها تأثير بسيط على الحيرة النهائية.

بالنسبة لمعظم النتائج الدقيقة ، استخدم batch_size = 1 و num_steps = 1 في التقييم. بفضل سيبريان لملاحظة هذا.

لتغيير المعلمات المفرطة

يقبل الأمر والوسيطة الإضافية- --hpconfig التي تسمح بتجاوز مختلف المعلميات المفرطة ، بما في ذلك:

Batch_size = 128 - حجم الدفعة لكل وحدة معالجة الرسومات . حجم الدُفعة العالمية = batch_size*num_gpus
num_steps = 20 - عدد الأوقات الزمنية لخلية LSTM
num_shards = 8 - يتم تقسيم المصفوفات التضمين والطاقة إلى هذه القطع العديدة
num_layers = 1 - عدد طبقات LSTM
Learning_rate = 0.2 - معدل التعلم للمحسّن
max_grad_norm = 10.0 - الحد الأقصى المقبول من التدرج لطبقات LSTM
keep_prob = 0.9 - التسرب الحفاظ على الاحتمال
Optimizer = 0 - أي مُحسِّن للاستخدام: Adagrad (0) ، الزخم (1) ، آدم (2) ، RMSPROP (3) ، SGD (4)
vocab_size = 793470 - حجم فوتابل
emb_size = 512 - حجم التضمين (يجب أن يكون نفس prossisted_size)
state_size = 2048 - حجم خلية LSTM
Prossised_size = 512 - حجم الإسقاط LSTM
num_sampled = 8192 - يستخدم التدريب SoftMax عينة ، عدد العينات)
do_summaries = false - قم بتوليد إحصائيات الوزن والخريج لـ Tensorboard
max_time = 180 - كحد أقصى (بالثواني) للتشغيل
fact_size - لاستخدام خلية F -LSTM ، يجب ضبط هذا على حجم العامل
num_of_groups = 0 - لاستخدام خلية G -LSTM ، يجب ضبط هذا على عدد من المجموعات
save_model_every_min = 30 - كم مرة لنقطة التفتيش
save_summary_every_min = 16 - كم مرة لحفظ الملخصات
use_residual = false - ما إذا كنت تستخدم الاتصالات المتبقية LSTM