f lm ดาวน์โหลด - f lm แหล่งที่มาดาวน์โหลด

f lm

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

F-LM

การสร้างแบบจำลองภาษา codebase นี้มีการใช้งานเซลล์ G-LSTM และ F-LSTM จาก [1] นอกจากนี้ยังอาจมีการทดลองอย่างต่อเนื่อง

รหัสนี้ถูกแยกจาก https://github.com/rafaljozefowicz/lm และมีพื้นฐานภาษา "biglstm" พื้นฐานจาก [2]

รหัสปัจจุบันทำงานบน TensorFlow R1.5 และรองรับการขนานข้อมูลหลาย GPU โดยใช้การอัปเดตการไล่ระดับสีแบบซิงโครไนซ์

ความงุนงง

ด้วยมาตรฐานหนึ่งพันล้านคำที่ใช้ 8 GPU ในหนึ่ง DGX-1, Big G-LSTM G4 สามารถบรรลุ 24.29 หลังจากการฝึกอบรม 2 สัปดาห์และ 23.36 หลังจาก 3 สัปดาห์

เมื่อวันที่ 02/06/2018 เราพบปัญหาเกี่ยวกับการตั้งค่าการทดลองของเราซึ่งทำให้หมายเลข perplexity ที่ระบุไว้ในกระดาษไม่ถูกต้อง

ดูหมายเลขปัจจุบันในตารางด้านล่าง

บนสถานี DGX หลังจากฝึกอบรม 1 สัปดาห์โดยใช้ GPU ทั้งหมด 4 ตัว (Tesla V100) และขนาดแบทช์ 256 ต่อ GPU:

แบบอย่าง	ความงุนงง	ขั้นตอน	WPS
Biglstm	35.1	~ 0.99m	~ 33.8K
Big F-LSTM F512	36.3	~ 1.67m	~ 56.5K
Big G-LSTM G4	40.6	~ 1.65m	~ 56K
Big G-LSTM G2	36	~ 1.37m	~ 47.1k
G-LSTM G8 ขนาดใหญ่	39.4	~ 1.7m	~ 58.5

การพึ่งพาอาศัยกัน

Tensorflow R1.5
Python 2.7 (ควรทำงานกับ Python 3 ด้วย)
ชุดข้อมูลมาตรฐาน 1B Word (https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark เพื่อรับข้อมูล)

วิ่ง

สมมติว่าไดเรกทอรีข้อมูลอยู่ใน: /raid/okuchaiev/Data/LM1B/1-billion-word-language-modeling-benchmark-r13output/ , EXECUTE:

 export CUDA_VISIBLE_DEVICES=0,1,2,3

SECONDS=604800
LOGSUFFIX=FLSTM-F512-1week

python /home/okuchaiev/repos/f-lm/single_lm_train.py --logdir=/raid/okuchaiev/Workspace/LM/GLSTM-G4/$LOGSUFFIX --num_gpus=4 --datadir=/raid/okuchaiev/Data/LM/LM1B/1-billion-word-language-modeling-benchmark-r13output/ --hpconfig run_profiler=False,float16_rnn=False,max_time=$SECONDS,num_steps=20,num_shards=8,num_layers=2,learning_rate=0.2,max_grad_norm=1,keep_prob=0.9,emb_size=1024,projected_size=1024,state_size=8192,num_sampled=8192,batch_size=256,fact_size=512  >> train_$LOGSUFFIX.log 2>&1

python /home/okuchaiev/repos/f-lm/single_lm_train.py --logdir=/raid/okuchaiev/Workspace/LM/GLSTM-G4/$LOGSUFFIX --num_gpus=1 --mode=eval_full --datadir=/raid/okuchaiev/Data/LM/LM1B/1-billion-word-language-modeling-benchmark-r13output/ --hpconfig run_profiler=False,float16_rnn=False,max_time=$SECONDS,num_steps=20,num_shards=8,num_layers=2,learning_rate=0.2,max_grad_norm=1,keep_prob=0.9,emb_size=1024,projected_size=1024,state_size=8192,num_sampled=8192,batch_size=1,fact_size=512

หากต้องการใช้เซลล์ G-LSTM ระบุพารามิเตอร์ num_of_groups
หากต้องการใช้พารามิเตอร์ F-LSTM ระบุพารามิเตอร์ fact_size

โปรดทราบว่าเครื่องอ่านข้อมูลปัจจุบันอาจพลาดโทเค็นบางตัวเมื่อสร้างมินิแบทช์ซึ่งอาจมีผลเล็กน้อยต่อความงุนงงขั้นสุดท้าย

สำหรับผลลัพธ์ที่แม่นยำที่สุด ให้ใช้ batch_size = 1 และ num_steps = 1 ในการประเมินผล ขอบคุณ Ciprian ที่สังเกตเห็นสิ่งนี้

เพื่อเปลี่ยนพารามิเตอร์ไฮเปอร์

คำสั่งยอมรับและอาร์กิวเมนต์เพิ่มเติม --hpconfig ซึ่งอนุญาตให้แทนที่พารามิเตอร์ไฮเปอร์ไฮเปอร์ต่างๆรวมถึง:

batch_size = 128 - ขนาดแบทช์ ต่อ GPU Global Batch size = batch_size*num_gpus
num_steps = 20 - จำนวนการจับเวลาเซลล์ LSTM
num_shards = 8 - การฝังและเมทริกซ์ softmax ถูกแบ่งออกเป็นเศษมากมายนี้
num_layers = 1 - ตัวเลขของเลเยอร์ LSTM
Learning_rate = 0.2 - อัตราการเรียนรู้สำหรับ Optimizer
max_grad_norm = 10.0 - บรรทัดฐานการไล่ระดับสีที่ยอมรับได้สูงสุดสำหรับเลเยอร์ LSTM
Keep_prob = 0.9 - ความน่าจะเป็น
Optimizer = 0 - เครื่องมือเพิ่มประสิทธิภาพที่จะใช้: Adagrad (0), โมเมนตัม (1), Adam (2), RMSPROP (3), SGD (4)
Vocab_size = 793470 - ขนาด Vocabluary
emb_size = 512 - ขนาดของการฝัง (ควรเหมือนกับ projected_size)
state_size = 2048 - ขนาดเซลล์ LSTM
Projected_size = 512 - ขนาดการฉาย LSTM
num_sampled = 8192 - การฝึกอบรมใช้ softmax ตัวอย่างจำนวนตัวอย่าง)
do_summaries = false - สร้างน้ำหนักและสถิติการศึกษาสำหรับ tensorboard
max_time = 180 - เวลาสูงสุด (เป็นวินาที) เพื่อเรียกใช้
fact_size - หากต้องการใช้เซลล์ F -LSTM ควรตั้งค่าเป็นขนาดปัจจัย
num_of_groups = 0 - หากต้องการใช้เซลล์ G -lstm ซึ่งควรตั้งค่าเป็นจำนวนกลุ่ม
save_model_every_min = 30 - จุดตรวจสอบบ่อยแค่ไหน
save_summary_every_min = 16 - บันทึกสรุปบ่อยแค่ไหน
use_residual = false - ไม่ว่าจะใช้การเชื่อมต่อที่เหลือ LSTM