ทีมวิจัยมหาวิทยาลัยซิงหัวเปิดตัวแพลตฟอร์มจำลองแหล่งกำเนิดเสียงบนมือถือ SonicSim และชุดข้อมูล SonicSet โดยมีเป้าหมายเพื่อแก้ไขปัญหาข้อมูลไม่เพียงพอในสถานการณ์แหล่งกำเนิดเสียงบนมือถือในด้านการประมวลผลเสียงพูด บรรณาธิการของ Downcodes จะพาคุณไปทำความเข้าใจกับผลลัพธ์ของการวิจัยที่ก้าวล้ำนี้ วิธีจำลองสภาพแวดล้อมทางเสียงที่แท้จริง และวิธีที่ให้การสนับสนุนข้อมูลคุณภาพสูงสำหรับการฝึกอบรมโมเดลการแยกคำพูดและการเพิ่มประสิทธิภาพ
ทีมวิจัยจากมหาวิทยาลัย Tsinghua เพิ่งเปิดตัวแพลตฟอร์มจำลองแหล่งกำเนิดเสียงบนมือถือชื่อ SonicSim ซึ่งมีจุดมุ่งหมายเพื่อแก้ไขปัญหาการขาดข้อมูลในปัจจุบันในด้านการประมวลผลคำพูดในสถานการณ์แหล่งกำเนิดเสียงบนมือถือ
แพลตฟอร์มนี้สร้างขึ้นบนแพลตฟอร์มการจำลอง Habitat-sim ซึ่งสามารถจำลองสภาพแวดล้อมทางเสียงในโลกแห่งความเป็นจริงด้วยความเที่ยงตรงสูงและให้การสนับสนุนข้อมูลที่ดีกว่าสำหรับการฝึกอบรมและการประเมินแบบจำลองการแยกคำพูดและการเพิ่มประสิทธิภาพ
ชุดข้อมูลการแยกและการปรับปรุงคำพูดที่มีอยู่ส่วนใหญ่จะขึ้นอยู่กับแหล่งกำเนิดเสียงคงที่ ซึ่งยากต่อการตอบสนองความต้องการของสถานการณ์แหล่งกำเนิดเสียงที่เคลื่อนไหว
แม้ว่าชุดข้อมูลที่บันทึกจริงบางชุดจะมีอยู่ในโลกแห่งความเป็นจริง แต่ขนาดของชุดนั้นมีจำกัดและค่าใช้จ่ายในการรวบรวมก็สูง ในทางตรงกันข้าม แม้ว่าชุดข้อมูลสังเคราะห์จะมีขนาดใหญ่กว่า แต่การจำลองทางเสียงมักจะไม่สมจริงเพียงพอที่จะสะท้อนคุณลักษณะทางเสียงในสภาพแวดล้อมจริงได้อย่างแม่นยำ

การเกิดขึ้นของแพลตฟอร์ม SonicSim ช่วยแก้ปัญหาข้างต้นได้อย่างมีประสิทธิภาพ แพลตฟอร์มดังกล่าวสามารถจำลองสภาพแวดล้อมทางเสียงที่ซับซ้อนได้หลากหลาย รวมถึงสิ่งกีดขวาง รูปทรงของห้อง และการดูดซับเสียง การสะท้อน และการกระเจิงของวัสดุที่แตกต่างกัน และรองรับเค้าโครงฉากที่ผู้ใช้กำหนด แหล่งกำเนิดเสียงและตำแหน่งไมโครโฟน ประเภทไมโครโฟน ฯลฯ .

ทีมวิจัยได้สร้างชุดข้อมูลแหล่งกำเนิดเสียงมือถือแบบหลายฉากขนาดใหญ่ที่เรียกว่า SonicSet โดยใช้แพลตฟอร์ม SonicSim
ชุดข้อมูลนี้ใช้ข้อมูลเสียงพูดและเสียงจาก LibriSpeech, Freesound Dataset50k และ Free Music Archive รวมถึงฉากจริง 90 ฉากจากชุดข้อมูล Matterport3D ซึ่งประกอบด้วยข้อมูลเสียงพูด เสียงรอบข้าง และเสียงเพลงที่หลากหลาย
กระบวนการสร้างชุดข้อมูล SonicSet นั้นเป็นไปโดยอัตโนมัติสูงและสามารถสร้างตำแหน่งของแหล่งกำเนิดเสียงและไมโครโฟนแบบสุ่ม รวมถึงวิถีการเคลื่อนที่ของแหล่งกำเนิดเสียง เพื่อให้มั่นใจถึงความถูกต้องและความหลากหลายของข้อมูล

เพื่อตรวจสอบประสิทธิภาพของแพลตฟอร์ม SonicSim และชุดข้อมูล SonicSet ทีมวิจัยได้ทำการทดลองจำนวนมากเกี่ยวกับงานการแยกคำพูดและการปรับปรุงคำพูด
ผลลัพธ์แสดงให้เห็นว่าโมเดลที่ได้รับการฝึกชุดข้อมูล SonicSet มีประสิทธิภาพที่ดีขึ้นในชุดข้อมูลที่บันทึกในโลกแห่งความเป็นจริง ซึ่งพิสูจน์ได้ว่าแพลตฟอร์ม SonicSim สามารถจำลองสภาพแวดล้อมทางเสียงในโลกแห่งความเป็นจริงได้อย่างมีประสิทธิภาพ และเป็นพื้นฐานที่มีประสิทธิภาพสำหรับการวิจัยในด้านการพูด การสนับสนุนการประมวลผล
การเปิดตัวแพลตฟอร์ม SonicSim และชุดข้อมูล SonicSet ได้นำความก้าวหน้าครั้งใหม่มาสู่การวิจัยในด้านการประมวลผลเสียงพูด ด้วยการปรับปรุงอย่างต่อเนื่องของเครื่องมือจำลองและการเพิ่มประสิทธิภาพของอัลกอริธึมแบบจำลอง การประยุกต์ใช้เทคโนโลยีการประมวลผลคำพูดในสภาพแวดล้อมที่ซับซ้อนจะได้รับการส่งเสริมต่อไปในอนาคต
อย่างไรก็ตาม ความสมจริงของแพลตฟอร์ม SonicSim ยังคงถูกจำกัดด้วยรายละเอียดของการสร้างแบบจำลองฉาก 3 มิติ เมื่อฉาก 3D ที่นำเข้ามีโครงสร้างที่ขาดหายไปหรือไม่สมบูรณ์ แพลตฟอร์มจะไม่สามารถจำลองเอฟเฟกต์เสียงสะท้อนในสภาพแวดล้อมปัจจุบันได้อย่างแม่นยำ
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.01481
การเกิดขึ้นของ SonicSim และ SonicSet ได้นำความหวังใหม่มาสู่การพัฒนาเทคโนโลยีการประมวลผลคำพูด แต่ก็ยังต้องได้รับการปรับปรุงอย่างต่อเนื่อง คาดว่าจะเห็นการประยุกต์ใช้เทคโนโลยีนี้ในสภาพแวดล้อมทางเสียงที่ซับซ้อนมากขึ้นในอนาคต บรรณาธิการของ Downcodes จะยังคงให้ความสนใจกับความก้าวหน้าของการวิจัยในสาขานี้ต่อไป