استفادت التطورات الأخيرة في تخليق الكلام عن شبكات قائمة على GAN مثل HIFI-GAN و BIGVGAN لإنتاج أشكال موجية عالية الدقة من طيف الميل. ومع ذلك ، فإن هذه الشبكات باهظة الثمن وذات المعلمة. يعالج ISTFTNET هذه القيود من خلال دمج تحويل فورييه القصيرة الأوقات (ISTFT) في الشبكة ، وتحقيق كل من السرعة والمعلمة. في هذه الورقة ، نقدم امتدادًا لـ ISTftnet ، المسمى HiftNet ، والذي يتضمن مرشح مصدر التوافقي الزائد الضوئي في مجال التردد الزمني الذي يستخدم مصدرًا جيبًا من التردد الأساسي (F0) المستنتج عبر شبكة تقدير F0 التي تم تدريبها مسبقًا للحصول على سرعة استنتاج سريعة. تُظهر التقييمات الذاتية على LJSpeech أن نموذجنا يتفوق بشكل كبير على كل من ISTFTNET و HIFI ، مما يحقق أداءً على مستوى الحقيقة الأرضية. يتفوق Hiftnet أيضًا على BigVgan-Base على Libritts للتحدث غير المرئي ويحقق أداءً قابلاً للمقارنة مع BigVgan بينما كان أسرع أربع مرات مع 1/6 فقط من المعلمات. يضع عملنا معيارًا جديدًا لمفرط عصبي فعال وعالي الجودة ، مما يمهد الطريق للتطبيقات في الوقت الفعلي التي تتطلب تخليقًا عالي الجودة.
ورقة: https://arxiv.org/abs/2309.09493
عينات الصوت: https://hiftnet.github.io/
تحقق من عمل TTS الذي يستخدم Hiftnet كدلالة خطاب لتوليف الكلام على مستوى الإنسان هنا: https://github.com/yl4579/styletts2
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]للتدريب على طراز F0 ، يرجى الرجوع إلى YL4579/PitchExtractor. يتضمن هذا الريبو نموذج F0 المدربين مسبقًا على Libritts. ومع ذلك ، قد ترغب في تدريب نموذج F0 الخاص بك للحصول على أفضل أداء ، خاصة بالنسبة للبيانات الصاخبة أو غير الكلام ، حيث وجدنا أن دقة تقدير F0 ضرورية لأداء Vocoder.
يرجى الرجوع إلى دفتر Noteber.ipynb للحصول على التفاصيل.
يمكنك تنزيل نموذج LJSpeech الذي تم تدريبه مسبقًا هنا ونموذج Libritts الذي تم تدريبه مسبقًا هنا. تحتوي النماذج التي تم تدريبها مسبقًا على معلمات للمحسّلات والتمييز التي يمكن استخدامها للضبط.