MASR เป็นโครงการ จดจำคำพูดภาษาจีนกลางของจีน โดยใช้ เครือข่ายประสาทลึกแบบครบวงจร
MASR ใช้เครือข่ายนิวรัลที่มีรั้วรอบขอบชิดกับโครงสร้างเครือข่ายคล้ายกับ WAV2LETTER ที่เสนอโดย Facebook ในปี 2559 แต่ฟังก์ชั่นการเปิดใช้งานที่ใช้ไม่ใช่ ReLU หรือ HardTanh แต่ GLU (หน่วยเชิงเส้นที่มีรั้วรอบขอบชิด) ดังนั้นจึงเรียกว่าเครือข่าย convolutional ที่มีรั้วรอบขอบชิด จากการทดลองของฉันการใช้ GLU Convergence นั้นเร็วกว่า HardTanh หากคุณต้องการศึกษาผลกระทบของเครือข่าย convolutional สำหรับการจดจำคำพูดโครงการนี้สามารถใช้เป็นข้อมูลอ้างอิง
ต่อไปนี้เป็นคำว่าอัตราความผิดพลาดในการวัดประสิทธิภาพของโมเดล cer = แก้ไขระยะทาง/ความยาวประโยคที่ต่ำกว่า
มันสามารถเข้าใจได้อย่างคร่าวๆว่า 1 - CER คือความแม่นยำในการรับรู้
แบบจำลองได้รับการฝึกฝนโดยใช้ชุดข้อมูล Aishell-1 โดยมีการบันทึกทั้งหมด 150 ชั่วโมงครอบคลุมตัวอักษรจีนมากกว่า 4,000 ตัว ระบบการจดจำเสียงที่ใช้ในอุตสาหกรรมมักใช้ข้อมูลการบันทึกอย่างน้อย 10 เท่าของโครงการนี้เพื่อฝึกอบรมแบบจำลองภาษา และไม่คาดหวังว่าโครงการนี้จะเทียบเคียงได้กับผลการรับรู้ของอุตสาหกรรม สิ่งนี้ไม่สมจริงสำหรับแต่ละโครงการใน GitHub เว้นแต่จะมีเทคโนโลยีขั้นสูงเกิดขึ้น
รูปแบบภาษาสำหรับการฝึกอบรมคลังข้อมูลสำหรับสถานการณ์เฉพาะคืออะไร? ตัวอย่างเช่นเมื่อคุณใช้การจดจำเสียงในเกมมันมีแนวโน้มที่จะรับรู้คำพูดของคุณว่าคุณอาจพูดเมื่อเล่นเกมเช่น "Diao Chan ถูกพ่ายแพ้โดย Lan" ในฉากอื่น ๆ "Diao Chan ถูกพ่ายแพ้โดย Lan" ไม่ใช่ประโยคที่ราบรื่นเลย หากคุณไม่เชื่อคุณจะพูดกับคนที่อ่านความรักของสามอาณาจักรเท่านั้นและไม่เคยได้รับเกียรติจากกษัตริย์ "Diao Chan ถูกพ่ายแพ้โดย Lan" คุณแน่ใจว่าเขาจะไม่ถามคุณกลับ: "อะไรนะไดโอชานถูกฆ่าตายโดยใครคือแลน?"
บนการ์ดใบเดียว GTX 1080TI ใช้เวลาประมาณ 20 นาทีในการทำซ้ำยุคหนึ่ง (ห้องปฏิบัติการรุ่น CUDA ค่อนข้างต่ำและไม่ได้ตัดออกว่ามันจะเร็วขึ้นหลังจากอัปเดตรุ่น CUDA)
รูปด้านบนแสดงเส้นโค้งการฝึกอบรมของ CER ที่มียุคของชุดการตรวจสอบ จะเห็นได้ว่าชุดการตรวจสอบ CER ลดลงเหลือ 11%
ประสิทธิภาพของชุดทดสอบไม่แสดงในรูป CER ของชุดทดสอบสูงกว่าเล็กน้อยที่ 14%
CER ของชุดทดสอบสามารถลดลงเป็น 8% ผ่านโมเดลภาษาภายนอก
รูปแบบที่ผ่านการฝึกอบรมมาก่อนที่โครงการได้รับการฝึกอบรมมาประมาณ 100 ยุคซึ่งเกือบจะดีที่สุด