أطلق فريق البحث بجامعة تسينغهوا منصة محاكاة مصدر الصوت المحمول SonicSim ومجموعة بيانات SonicSet، بهدف حل مشكلة عدم كفاية البيانات في سيناريوهات مصدر الصوت المحمول في مجال معالجة الكلام. سيأخذك محرر Downcodes إلى فهم نتائج هذا البحث المذهل، وكيف يحاكي البيئة الصوتية الحقيقية، وكيف يوفر دعمًا عالي الجودة للبيانات لتدريب نماذج فصل الكلام وتحسينه.
أصدر فريق بحث من جامعة تسينغهوا مؤخرًا منصة محاكاة مصدر الصوت المحمول تسمى SonicSim، والتي تهدف إلى حل المشكلة الحالية المتمثلة في نقص البيانات في مجال معالجة الكلام في سيناريوهات مصدر الصوت المحمول.
تم بناء هذه المنصة على منصة محاكاة Habitat-sim، والتي يمكنها محاكاة البيئة الصوتية في العالم الحقيقي بدقة عالية وتوفير دعم أفضل للبيانات للتدريب وتقييم نماذج فصل الكلام وتحسينه.
تعتمد معظم مجموعات بيانات فصل وتحسين الكلام الموجودة على مصادر صوت ثابتة، والتي يصعب تلبية احتياجات سيناريوهات مصدر الصوت المتحرك.
على الرغم من وجود بعض مجموعات البيانات المسجلة الحقيقية أيضًا في العالم الحقيقي، إلا أن نطاقها محدود وتكاليف جمعها مرتفعة. في المقابل، على الرغم من أن مجموعات البيانات الاصطناعية أكبر حجمًا، إلا أن عمليات المحاكاة الصوتية الخاصة بها غالبًا ما تكون غير واقعية بدرجة كافية لتعكس الخصائص الصوتية بدقة في البيئات الحقيقية.

ظهور منصة SonicSim يحل المشاكل المذكورة أعلاه بشكل فعال. يمكن للمنصة محاكاة مجموعة متنوعة من البيئات الصوتية المعقدة، بما في ذلك العوائق، وهندسة الغرفة، وامتصاص الصوت، والانعكاس، وخصائص التشتت للمواد المختلفة، وتدعم تخطيط المشهد المحدد من قبل المستخدم، ومصدر الصوت ومواضع الميكروفون، وأنواع الميكروفون، وما إلى ذلك. .

استنادًا إلى منصة SonicSim، قام فريق البحث أيضًا ببناء مجموعة بيانات مصدر صوت متنقلة متعددة المشاهد واسعة النطاق تسمى SonicSet.
تستخدم مجموعة البيانات هذه بيانات الكلام والضوضاء من LibriSpeech وFreesound Dataset50k وأرشيف الموسيقى المجاني، بالإضافة إلى 90 مشهدًا حقيقيًا من مجموعة بيانات Matterport3D، التي تحتوي على بيانات غنية بالكلام والضوضاء البيئية وضوضاء الموسيقى.
إن عملية بناء مجموعة بيانات SonicSet مؤتمتة للغاية ويمكنها إنشاء مواقع مصادر الصوت والميكروفونات بشكل عشوائي بالإضافة إلى مسارات الحركة لمصادر الصوت، مما يضمن صحة البيانات وتنوعها.

ومن أجل التحقق من فعالية منصة SonicSim ومجموعة بيانات SonicSet، أجرى فريق البحث عددًا كبيرًا من التجارب حول مهام فصل الكلام وتحسين الكلام.
تظهر النتائج أن النموذج الذي تم تدريبه على مجموعة بيانات SonicSet حقق أداءً أفضل على مجموعة البيانات المسجلة في العالم الحقيقي، مما يثبت أن منصة SonicSim يمكنها محاكاة البيئة الصوتية في العالم الحقيقي بشكل فعال وتوفر أساسًا قويًا للبحث في مجال الكلام. دعم.
أدى إطلاق منصة SonicSim ومجموعة بيانات SonicSet إلى تحقيق اختراقات جديدة للبحث في مجال معالجة الكلام. ومع التحسين المستمر لأدوات المحاكاة وتحسين خوارزميات النماذج، سيتم تعزيز تطبيق تكنولوجيا معالجة الكلام في البيئات المعقدة في المستقبل.
ومع ذلك، فإن واقعية منصة SonicSim لا تزال محدودة بتفاصيل نمذجة المشهد ثلاثي الأبعاد. عندما يكون المشهد ثلاثي الأبعاد المستورد مفقودًا أو غير مكتمل، لا يمكن للنظام الأساسي محاكاة تأثير الصدى بدقة في البيئة الحالية.
عنوان الورقة: https://arxiv.org/pdf/2410.01481
جلب ظهور SonicSim وSonicSet أملًا جديدًا لتطوير تقنية معالجة الكلام، لكنها لا تزال بحاجة إلى التحسين المستمر. نتوقع رؤية تطبيقات لهذه التكنولوجيا في بيئات صوتية أكثر تعقيدًا في المستقبل. سيستمر محرر Downcodes في الاهتمام بتقدم البحث في هذا المجال.