tying wv and wc Download - tying wv and wc Source Source Download

tying wv and wc

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การผูกเวคเตอร์คำและตัวแยกประเภทคำ: กรอบการสูญเสียสำหรับการสร้างแบบจำลองภาษา

การใช้งานสำหรับ "การผูกเวคเตอร์คำและตัวแยกประเภทคำ: กรอบการสูญเสียสำหรับการสร้างแบบจำลองภาษา"

บทความนี้พยายามที่จะใช้ความหลากหลายของคำหมายถึงการฝึกอบรมเครือข่ายประสาทลึก

บทสรุปของกระดาษ

แรงจูงใจ

ในการสร้างแบบจำลองภาษา (การทำนายลำดับคำ) เราต้องการแสดงความหลากหลายของความหมายของคำ
ตัวอย่างเช่นเมื่อทำนายคำที่อยู่ถัดจาก "กล้วยอร่อย ___" คำตอบคือ "ผลไม้" แต่ "ขนม", "อาหาร" ก็โอเคเช่นกัน แต่การสอนเวกเตอร์ที่ร้อนแรงหนึ่งครั้งไม่เหมาะที่จะบรรลุเป้าหมาย เพราะคำใด ๆ ที่คล้ายกันถูกละเว้น แต่คำตอบที่แน่นอน

แรงจูงใจ. png

หากเราไม่สามารถใช้ความร้อนได้เพียงครั้งเดียว แต่ "การกระจาย" เราสามารถสอนความหลากหลายนี้ได้

วิธี

ดังนั้นเราจึงใช้ "การกระจายของคำ" เพื่อสอนแบบจำลอง การกระจายนี้ได้มาจากคำตอบและเมทริกซ์การค้นหาแบบฝัง

สูตร. png

สถาปัตยกรรม

หากเราใช้การสูญเสียประเภทการแจกแจงนี้เราสามารถพิสูจน์ความเท่าเทียมกันระหว่างเมทริกซ์การฝังอินพุตและเมทริกซ์การฉายเอาต์พุต

เทียบเท่า. png

ในการใช้การสูญเสียประเภทการแจกแจงและการฝังอินพุตและการคาดการณ์การฉายภาพความเท่าเทียมกันช่วยเพิ่มความงุนงงของโมเดล

การทดลอง

การดำเนินการ

Keras: เพื่อใช้โมเดล
Chazutsu: เพื่อดาวน์โหลดชุดข้อมูล

ผลลัพธ์

เรียกใช้ชุดข้อมูล 15 Epoch บนชุดข้อมูล Penn Treebank
- คะแนน perplexity มีขนาดใหญ่ฉันไม่มั่นใจในการดำเนินการ ฉันกำลังรอคำขอดึง!
augmentedmodel ทำงานได้ดีกว่า Baseline ( onehotmodel ) และ augmentedmodel_tying ดีกว่าพื้นฐาน!
คุณสามารถเรียกใช้การทดลองนี้โดย python train.py

ฉันใช้เวอร์ชัน LSTM ที่มีสถานะ ผลลัพธ์ดังต่อไปนี้

ความงุนงงได้รับการปรับปรุง (แต่ zaggy) และวิธีการผูกจะสูญเสียผลกระทบเล็กน้อย
ในการใช้ LSTM สถานะใน keras นั้นยากเกินไป (โดยเฉพาะอย่างยิ่ง reset_states ในชุดการตรวจสอบความถูกต้อง) ดังนั้นอาจมีข้อ จำกัด อยู่บ้าง

การตรวจสอบเพิ่มเติม

ในตอนต้นของการฝึกอบรมเมทริกซ์การฝังเพื่อผลิต "การกระจายของครู" ยังไม่ได้รับการฝึกฝน วิธีที่เสนอมีแต้มต่อเล็กน้อยในตอนแรก
- แต่ไม่พบความล่าช้าของการฝึกอบรม
การเพิ่มอุณหภูมิ (อัลฟ่า) ค่อยๆอาจปรับปรุงความเร็วในการฝึกอบรม
ในการใช้เวกเตอร์คำที่ผ่านการฝึกอบรมมาก่อนหรือแก้ไขน้ำหนักเมทริกซ์การฝังสำหรับช่วงเวลา (เทคนิคเป้าหมายคงที่ที่การเรียนรู้การเสริมแรง (โปรดอ้างอิง การเรียนรู้การเสริมแรงลึก )) จะมีผลต่อการฝึกอบรม

โดยวิธีการตัวอย่างของ Pytorch ใช้วิธีการผูกไว้แล้ว! อย่ากลัวที่จะใช้มัน!

ขยาย

ข้อมูลเพิ่มเติม