สิ่งนี้เป็นการบ้านที่สำคัญสำหรับหลักสูตรการสอบระดับปริญญาตรี มันถูกเขียนโดยทั่วไปด้วยวิธีสุ่ม ในเวลานั้นฉันไม่รู้อะไรเลยและไม่สามารถใช้ API ทุกชนิดได้ดังนั้นการใช้งานในหลาย ๆ ที่ไม่เหมาะสมมาก นอกจากนี้โมเดลยังเลือกโมเดลที่ง่ายที่สุดเพื่อบันทึกปัญหาและไม่มีค่าอ้างอิงทั้งระดับรหัสและระดับการศึกษา
นอกจากนี้เนื่องจากไม่มีการอนุญาตให้ใช้ข้อมูลฉันจึงไม่สามารถเปิดเผยชุดข้อมูลได้ โปรดเข้าใจ
ระบบถาม - ตอบภาษาจีนขึ้นอยู่กับ LSTM
โครงการนี้ตระหนักถึงหน้าที่ของการค้นหาประโยคที่คำตอบสำหรับคำถามที่กำหนดอยู่ในหลายประโยคโดยการสร้างโมเดลเครือข่ายหน่วยความจำระยะยาวและระยะสั้น ในสถานที่ตั้งของการใช้ทรัพยากรอินเทอร์เน็ตของบุคคลที่สาม develop.data สามารถตรวจสอบได้โดยใช้โมเดลที่ผ่านการฝึกอบรมในการฝึกอบรม data MRR สามารถเข้าถึง 0.75 หรือสูงกว่า
วิธีการวิ่ง
การพึ่งพาด้านสิ่งแวดล้อม
โปรแกรม รุ่น งูหลาม 3.5.2 เทนเซอร์โฟลว์ 1.2.1 jieba 0.38 คนขี้เกียจ 8.0 (8.0.61.2) คนขี้เกียจ 5.1 Cuda และ Cudnn เป็นทั้งการพึ่งพาของ tensorflow โปรดตรวจสอบเอกสาร TensorFlow อย่างเป็นทางการเพื่อรับวิธีการติดตั้ง ส่วนที่เหลือสามารถติดตั้งได้โดยใช้คำสั่ง
pip installคำแนะนำสำหรับการใช้ทรัพยากรบุคคลที่สาม
- เมื่อทำการแบ่งส่วนคำในข้อความภาษาจีนจะใช้การแบ่งส่วน Jieba
- เมื่อเข้ารหัสคำที่ดีการเข้ารหัสการฝังคำเพื่อหลีกเลี่ยงการสูญเสียประสิทธิภาพที่เกิดจากการเข้ารหัสร้อนหนึ่งครั้ง คำว่าเวกเตอร์ใช้ไฟล์เวกเตอร์คำ 50 มิติที่ได้รับผ่านการฝึกอบรมข้อมูลออฟไลน์ในวิกิพีเดียจีน
เรียกใช้โปรแกรม
หลังจากติดตั้งไลบรารีการพึ่งพาให้เรียกใช้งาน main.py โดยตรง หากมีรูปแบบที่ได้รับการฝึกอบรมโปรแกรมจะแจ้งให้คุณทราบว่าจะโหลดโมเดลโดยตรงหรือเริ่มการฝึกอบรมอีกครั้ง
Main.py ไม่ได้รับพารามิเตอร์ หากคุณต้องการแก้ไขการกำหนดค่าโปรดแก้ไขรหัสโดยตรง มีรายละเอียดความคิดเห็นของจีนในไฟล์โปรดแก้ไขตามนั้น
taevaluation.py เป็นสคริปต์การประเมินที่สามารถให้การประเมิน MRR, MAP และ ACC@1 เขียนโดยผู้ช่วยผู้ช่วยสอน ฉันทำการปรับเปลี่ยนรูปแบบอินพุตและเอาต์พุตบางอย่าง
เกี่ยวกับการฝึกอบรม
เมื่อคุณเลือกที่จะไม่ใช้รูปแบบที่ผ่านการฝึกอบรมหรือไม่มีรูปแบบที่ผ่านการฝึกอบรมโปรแกรมจะใช้ข้อมูลในการฝึกอบรม data และ develop.data เพื่อฝึกอบรมแบบจำลอง เมื่อใช้พารามิเตอร์เริ่มต้นการฝึกอบรมจะใช้หน่วยความจำวิดีโอสูงสุด 8G + 2G โปรดตรวจสอบให้แน่ใจว่าคอมพิวเตอร์มีทรัพยากรฮาร์ดแวร์เพียงพอล่วงหน้าเพื่อป้องกันรายงานข้อผิดพลาด กระบวนการฝึกอบรมที่สมบูรณ์ใช้เวลาประมาณ 12 ชั่วโมงภายใต้เงื่อนไข GTX 850M+I5 4210H ของฉัน
นอกจากนี้เมื่อฉันปรับพารามิเตอร์แม้จะมีพารามิเตอร์เดียวกันผลลัพธ์ของการฝึกอบรมแต่ละครั้งอาจยังคงผันผวนได้สูงสุด 0.03 โดยใช้ตัวชี้วัด MRR และเหตุผลก็ไม่ชัดเจน เนื่องจากฮาร์ดแวร์ส่วนบุคคลและข้อ จำกัด ด้านเวลามีการปรับพารามิเตอร์ที่หยาบมากเท่านั้นและพารามิเตอร์ส่วนใหญ่ยังคงมีที่ว่างสำหรับการเพิ่มประสิทธิภาพเพิ่มเติม หากคุณสนใจคุณอาจพยายามปรับให้เหมาะสม