التنفيذ الرسمي لـ Learn2Sing 2.0. للحصول على جميع التفاصيل ، راجع ورقتنا المقبولة بواسطة Interspeech 2022 عبر هذا الرابط.
المؤلفون : Heyang Xue ، Xinsheng Wang ، Yongmao Zhang ، Lei Xie ، Pengcheng Zhu ، Mengxiao Bi.
الصفحة التجريبية : الرابط.
إن بناء مجموعة غنائية عالية الجودة لشخص غير جيد في الغناء أمر غير تافهة ، مما يجعل من الصعب خلق مركب صوت غناء لهذا الشخص. يكرس Learn2Sing لتوليف صوت الغناء لمتحدث دون بيانات الغناء من خلال التعلم من البيانات التي سجلها الآخرين ، أي معلم الغناء. مستوحاة من حقيقة أن الملعب هو عامل النمط الرئيسي لتمييز الغناء عن الصوت ، فإن Learn2Sing 2.0 المقترح يقوم أولاً بإنشاء الميزة الصوتية الأولية ذات قيمة الملعب المتوسطة في مستوى الهاتف ، مما يسمح بتدريب هذه العملية على أنماط مختلفة ، أي التحدث أو الغناء ، وشراء نفس الشروط باستثناء معلومات المتحدث. بعد ذلك ، مشروطًا بالنمط المحدد ، يتم اعتماد جهاز فك ترميز الانتشار ، الذي يتم تسريعه بواسطة خوارزمية أخذ العينات السريعة أثناء مرحلة الاستدلال ، لاستعادة الميزة الصوتية النهائية. أثناء التدريب ، لتجنب ارتباك المعلومات في التضمين المتحدث والتضمين النمط ، يتم استخدام المعلومات المتبادلة لقيد تعلم التضمين وتضمين الأسلوب. تبين التجارب أن النهج المقترح قادر على تجميع صوت الغناء عالي الجودة للمتحدث المستهدف دون غناء البيانات مع 10 خطوات فك التشفير.
استبدل مجموعة الهواتف والملعب في النص/الرموز.
توفير المسار للبيانات في config.json ، يحتوي مجلد TestData على ملفات مثال لإظهار التنسيق
تمرين
bash run.sh
الاستدلال
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True