Robust_Fine_Grained_Prosody_Control تنزيل - Robust_Fine_Grained_Prosody

Robust_Fine_Grained_Prosody_Control

كود الذكاء الاصطناعي

1.0.0

تنزيل

التحكم القوي والرافعة في توليف الكلام من طرف إلى طرف (مع WaveGlow)

تنفيذ Pytorch من السيطرة على إيجابيات قوية وذات الحبيبات لتوليف الكلام من طرف إلى طرف (غير رسمي)

يستخدم هذا التنفيذ مجموعة بيانات Libritts.

ملحوظات

Dev Branch: Tacotron2 مع Multispeaker (مكبر الصوت التضمين). يتم استهلاك معلومات السماعة فقط بواسطة وحدة فك الترميز ، ولا ترى وحدة الانتباه أيًا منها (كنية المؤلفين).
فرع Text_side : تنفيذ نموذج التحكم في Prosody.
لا يتم تنفيذ مكافحة الإجهاض من جانب الكلام وتطبيع Prosody في الإصدار الحالي ، ولكن يمكنك ببساطة إضافتها فوق الفروع أعلاه.

المتطلبات المسبقة

NVIDIA GPU + CUDA CUDNN

يثبت

قم بتنزيل واستخراج مجموعة بيانات Libritts
استنساخ هذا الريبو: git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.git
القرص المضغوط في هذا الريبو: cd Robust_Fine_Grained_Prosody_Control
تهيئة الجهاز الفرعي: git submodule init; git submodule update
تحديث. WAV مسارات: sed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txt
- بدلاً من ذلك ، قم بتعيين load_mel_from_disk=True في hparams.py وتحديث مسارات الطيف الميل
تثبيت Pytorch 1.0
تثبيت قمة
تثبيت متطلبات Python أو بناء صورة Docker
- تثبيت متطلبات Python: pip install -r requirements.txt

تمرين

python train.py --output_directory=outdir --log_directory=logdir
(اختياري) tensorboard --logdir=outdir/logdir

التدريب باستخدام نموذج تم تدريبه مسبقًا

(TBD)

متعدد GPU (موزعة) والتدريب الأوتوماتيكي المختلط الدقيق

غير مدعوم في التنفيذ الحالي.

الاستدلال

عينة واحدة: python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"
عينات متعددة: python inference_all.py -c checkpoint/path -r reference_audios/dir/path

NB عند إجراء طيف الميل إلى تخليق الصوت ، تأكد من تدريب Tacotron 2 و MENCODER على نفس تمثيل طيف الميل.

اقتباس

 @misc{lee2021robust_fine_grained_prosody_control,
  author = {Lee, Keon},
  title = {Robust_Fine_Grained_Prosody_Control},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}