لقد شهدت نص إلى خط الكلام (TTS) مؤخرًا تقدمًا كبيرًا في تجميع الكلام عالي الجودة بسبب التطور السريع لأنظمة TTS المتوازية ، ولكن إنتاج الكلام مع الاختلافات الإضافية الطبيعية وأنماط التحدث والنغمات العاطفية لا يزال يمثل تحديًا. علاوة على ذلك ، نظرًا لأن المدة والكلام يتم توليدها بشكل منفصل ، لا تزال نماذج TTS المتوازية تواجه مشاكل في العثور على أفضل موازيات رتيبة حاسمة لتوليف الكلام الطبيعي. هنا ، نقترح Styletts ، وهو نموذج توليدي يعتمد على الأسلوب لـ TTS المتوازي الذي يمكنه تصنيع الكلام المتنوع مع الإثارة الطبيعية من نطق الكلام المرجعي. من خلال مخططات RELIGNER القابلة للتحويل (TMA) ومدّت المدة ، تتفوق طريقتنا بشكل كبير على النماذج الحديثة على كل من مجموعات البيانات الواحدة والمتعددة المتحدثين في الاختبارات الذاتية للاختبارات الطبيعية في الكلام وتشابه المتحدث. من خلال التعلم الخاضع للإشراف ذاتيًا لأساليب التحدث ، يمكن أن يتجمع نموذجنا من الكلام مع نفس النغمة الإيجابية والعاطفية مثل أي خطاب مرجعي معين دون الحاجة إلى وصف هذه الفئات بشكل صريح.
ورقة: https://arxiv.org/abs/2107.10394
عينات الصوت: https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.gitالتدريب على المرحلة الأولى:
python train_first.py --config_path ./Configs/config.ymlالتدريب في المرحلة الثانية:
python train_second.py --config_path ./Configs/config.yml يمكنك الركض على حد سواء على التوالي وسيقوم بتدريب المرحلة الأولى والثانية. سيتم حفظ النموذج في التنسيق "EPOCH_1ST_ ٪ 05D.PTH" و "EPOCH_2ND_ ٪ 05D.PTH". سيتم حفظ نقاط التفتيش وسجلات Tensorboard في log_dir .
يجب أن يكون تنسيق قائمة البيانات filename.wav|transcription ، انظر Val_List_Libritts.txt كمثال.
يرجى الرجوع إلى الاستدلال. ipynb للحصول على التفاصيل.
يمكن تنزيل styletts pretrained و HIFI-GAN على LJSPEED Corpus في 24 كيلو هرتز في Link Styletts ورابط HIFI-GAN.
يمكن تنزيل styletts pretrained و HIFI-gan على Libritts Corpus على Link Styletts ورابط HIFI. تحتاج أيضًا إلى تنزيل Test-Clean من Libritts إذا كنت ترغب في تشغيل العرض التجريبي الصفر.
يرجى إلغاء الضغط على Models Vocoder المعنية وتشغيل كل خلية في دفتر الملاحظات. ستحتاج أيضًا إلى تثبيت Phonemizer لتشغيل هذا العرض التجريبي للاستدلال.
يتم توفير نماذج مستخلص النص المسبق ونماذج مستخلص الملعب تحت مجلد Utils . يتم تدريب كل من نماذج محاذاة النص ونماذج مستخرج الملعب مع معالجة melspectrograms مسبقًا باستخدام meldataset.py.
يمكنك تحرير meldataset.py مع المعالجة المسبقة الخاصة بك ، ولكن النماذج المسبقة المقدمة لن تعمل بعد الآن. ستحتاج إلى تدريب محاذاة النص الخاص بك و مستخرج الملعب مع المعالجة المسبقة الجديدة.
يتوفر رمز التدريب على نموذج Aligner الجديد هنا ، وتتوفر هنا لتدريب نماذج مستخرج الملعب الجديدة هنا.
سأقدم المزيد من عمليات الاسترداد مع المعالجة المسبقة الحالية مثل تلك الموجودة في Hifigan الرسمية و ESPNET في المستقبل إذا كان لدي وقت إضافي. إذا كنت على استعداد للمساعدة ، فلا تتردد في صنع استلام مع ESPNET.