Robust_Fine_Grained_Prosody_Control DOWN DOWNOUDAT - Robust_Fine_Grained_Prosody

Robust_Fine_Grained_Prosody_Control

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การควบคุมฉันทลักษณ์ที่แข็งแกร่งและละเอียดของการสังเคราะห์การพูดแบบ end-to-end (พร้อม waveglow)

การใช้ Pytorch ของการควบคุมฉันทลักษณ์ที่แข็งแกร่งและละเอียดของการสังเคราะห์การพูดแบบ end-to-end (ไม่เป็นทางการ)

การใช้งานนี้ใช้ชุดข้อมูล Libritts

หมายเหตุ

สาขา Dev : Tacotron2 พร้อม Multispeaker (ลำโพงฝัง) ข้อมูลลำโพงถูกใช้โดยโมดูลตัวถอดรหัสเท่านั้นและโมดูลความสนใจไม่เห็นสิ่งใด (ตามความตั้งใจของผู้เขียน)
Text_side Branch: การใช้รูปแบบการควบคุมฉันทลักษณ์ด้านข้อความ
การควบคุมฉันทลักษณ์ด้านข้างคำพูดและการทำให้เป็นมาตรฐานของฉันทลักษณ์ไม่ได้ถูกนำมาใช้ในเวอร์ชันปัจจุบัน แต่คุณสามารถเพิ่มได้ในสาขาด้านบน

สิ่งที่ต้องมีก่อน

nvidia gpu + cuda cudnn

การตั้งค่า

ดาวน์โหลดและแยกชุดข้อมูล Libritts
โคลน repo นี้: git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.git
CD ใน repo นี้: cd Robust_Fine_Grained_Prosody_Control
เริ่มต้น submodule: git submodule init; git submodule update
อัปเดต. wav paths: sed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txt
- อีกทางเลือกหนึ่งตั้งค่า load_mel_from_disk=True ใน hparams.py และอัปเดตเส้นทาง mel-spectrogram
ติดตั้ง pytorch 1.0
ติดตั้ง Apex
ติดตั้งข้อกำหนดของ Python หรือสร้างภาพ Docker
- การติดตั้งข้อกำหนด Python: pip install -r requirements.txt

การฝึกอบรม

python train.py --output_directory=outdir --log_directory=logdir
(ไม่บังคับ) tensorboard --logdir=outdir/logdir

การฝึกอบรมโดยใช้แบบจำลองที่ผ่านการฝึกอบรมมาก่อน

(TBD)

Multi-GPU (กระจาย) และการฝึกอบรมความแม่นยำแบบผสมอัตโนมัติ

ไม่รองรับในการใช้งานปัจจุบัน

การอนุมาน

ตัวอย่างเดียว: python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"
ตัวอย่างหลายตัวอย่าง: python inference_all.py -c checkpoint/path -r reference_audios/dir/path

NB เมื่อดำเนินการ mel-spectrogram เพื่อการสังเคราะห์เสียงตรวจสอบให้แน่ใจว่า Tacotron 2 และตัวถอดรหัส MEL ได้รับการฝึกฝนในการแสดง mel-spectrogram เดียวกัน

การอ้างอิง

 @misc{lee2021robust_fine_grained_prosody_control,
  author = {Lee, Keon},
  title = {Robust_Fine_Grained_Prosody_Control},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}