غلاف واجهة المستخدم الرسومية لتوليف. يسمح بتوليف وحدة المعالجة المركزية فقط عبر مفتاح قابل للتجميل. يتوفر ملف EXE المحمول (يعمل على وحدة المعالجة المركزية فقط).
يلعب أيضا تنبيهات التبرعات TTS من عناصر التيار.
| واجهة المستخدم الرئيسية | دفق تكامل عناصر |
|---|---|
برنامج نص قائم على التعلم الآلي لبرنامج الكلام مع واجهة المستخدم الرسومية سهلة الاستخدام. يتضمن الجمهور المستهدف Twitch Streamers أو منشئي المحتوى الذين يبحثون عن برنامج TTS مفتوح المصدر. الهدف من هذا البرنامج هو جعل TTS Synthesis متاحًا في وضع عدم الاتصال (بدون تجربة ترميز ، GPU/COLAB) في EXE محمول.
يمكن العثور على قابلة للتنفيذ محمول في صفحة الإصدارات ، أو مباشرة هنا. قم بتنزيل نموذج Tacotron 2 و WaveGlow من الأسفل.
تحذير: يعمل القابل للتنفيذ المحمول على وحدة المعالجة المركزية مما يؤدي إلى تباطؤ سرعة 10x مقارنة بتشغيله على GPU.
Pytorch 1.0
python gui.py
تنفيذ Pytorch لتوليف TTS الطبيعي عن طريق تكييف Wavenet على تنبؤات طيفية MEL.
يتضمن هذا التنفيذ دعمًا دقيقًا ومختلطًا تلقائيًا ويستخدم مجموعة بيانات LJSpeech.
يعتمد دعم الدقة المختلطة الموزعة والأوتوماتيكية على قمة NVIDIA و AMP.
تفضل بزيارة موقعنا على الويب لعينات الصوت باستخدام طرز Tacotron 2 المنشورة ونماذج WaveGlow.

git clone https://github.com/NVIDIA/tacotron2.gitcd tacotron2git submodule init; git submodule updatesed -i -- 's,DUMMY,ljs_dataset_folder/wavs,g' filelists/*.txtload_mel_from_disk=True في hparams.py وتحديث مسارات الطيف الميلpip install -r requirements.txt python train.py --output_directory=outdir --log_directory=logdirtensorboard --logdir=outdir/logdir يمكن أن يؤدي التدريب باستخدام نموذج تم تدريبه مسبقًا إلى تقارب أسرع بشكل افتراضي ، ويتم تجاهل طبقات تضمين النصوص المعتمدة على مجموعة البيانات
python train.py --output_directory=outdir --log_directory=logdir -c tacotron2_statedict.pt --warm_start python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True jupyter notebook --ip=127.0.0.1 --port=31337NB عند إجراء طيف الميل إلى تخليق الصوت ، تأكد من تدريب Tacotron 2 و MENCODER على نفس تمثيل طيف الميل.
WaveGlow أسرع من الشبكة التوليدية القائمة على التدفق في الوقت الحقيقي لتوليف الكلام
NV-Wavenet أسرع من Wavenet في الوقت الحقيقي.
يستخدم هذا التنفيذ رمزًا من repos التالية: Keith Ito ، Prem Seetharaman كما هو موضح في الكود لدينا.
نحن مستوحى من تطبيق Ryuchi Yamamoto التاكوتون Pytorch.
نحن ممتنون لمؤلفي الورق Tacotron 2 ، وخاصة جوناثان شين ، ويوكسوان وانغ وزونغنغ يانغ.