؟ آسف على السحب
مستودع مفتوح المصدر يهدف إلى توليد مسارات صوتية ومفيدة من كلمات الأغاني ، على غرار غرد Suno AI.
طريقة Utautai مستوحاة بشكل أساسي من TTS Spear
أثناء التدريب ، تتكون المدخلات من الرموز الدلالية التي تم الحصول عليها من "Lyrics2Semantic AR" ، والتي تستخرج الرموز الدلالية من كلمات الأغاني ، وكذلك الرموز الصوتية. بالإضافة إلى ذلك ، تتعرض تمثيلات MERT المستمدة من الموسيقى لقياس K-Means للحصول على مزيد من الرموز الدلالية.
ومع ذلك ، أثناء الاستدلال ، لا يمكن الحصول على تمثيلات Mert من الموسيقى. لذلك ، نقوم بتدريب وحدة نمطية باتباع منهجية TTS2 المطالبة للحصول على تمثيلات Mert المستهدفة من المطالبة أثناء الاستدلال. تتكون الوحدة النمطية من نموذج انتشار قائم على المحولات.
أعتقد أنه باستخدام هذا النهج ، يمكننا تحقيق المهام المستهدفة بنجاح. ماذا تعتقد؟
إذا وجدت utautai مثيرة للاهتمام ومفيدة ، فامنحنا نجمة على جيثب! ️ إنه يشجعنا على الاستمرار في تحسين النموذج وإضافة ميزات مثيرة.
المساهمات دائما موضع ترحيب.