tf_multispeakerTTS_fc ดาวน์โหลด - tf_multispeakerTTS_fc ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

tf_multispeakerTTS_fc

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การสังเคราะห์คำพูดหลายครั้งพร้อมข้อ จำกัด ข้อเสนอแนะจากผู้พูด Verificaiton

นี่คือการใช้งาน tensorflow ของเครือข่าย TTS Multispeaker ที่แนะนำในกระดาษจากการตรวจสอบลำโพงไปจนถึงการสังเคราะห์คำพูดหลายครั้งการถ่ายโอนลึกพร้อมข้อ จำกัด ข้อเสนอแนะ ที่เก็บนี้ยังมีรูปแบบการตรวจสอบลำโพงลึกที่ใช้ในโมเดล TTS หลายลำโพงเป็นเครือข่ายข้อเสนอแนะ ตัวอย่างสังเคราะห์มีให้ออนไลน์

การอ้างอิง

 @inproceedings{Cai2020,
  author={Zexin Cai and Chuxiong Zhang and Ming Li},
  title={{From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint}},
  year=2020,
  booktitle={Proc. Interspeech 2020}
}

สถาปัตยกรรมแบบจำลอง

ที่ซึ่งเครือข่ายการฝังลำโพงเป็นเครือข่ายที่ใช้ resnet:

การฝึกอบรม

รูปแบบการตรวจสอบลำโพง

รูปแบบการตรวจสอบลำโพงตั้งอยู่ในไดเรกทอรี deep_speaker โดยการตั้งค่าเริ่มต้นรูปแบบการตรวจสอบลำโพงได้รับการฝึกฝนด้วยข้อมูล voxceleb 1 และ voxceleb 2 คุณสามารถค้นหารายการไฟล์ในไดเรกทอรี Hyperparameters ถูกตั้งค่าใน vox12_hparams.py

ในการฝึกอบรมโมเดล Verificaiton ของลำโพงตั้งแต่เริ่มต้นให้เตรียมข้อมูลตามที่ระบุไว้ในรายการไฟล์และเรียกใช้:

CUDA_VISIBLE_DEVICES=0 python train.py

TTS synthesizer (โดยไม่มีการควบคุมข้อเสนอแนะ)

โดยการตั้งค่าเริ่มต้น synthesizer ได้รับการฝึกฝนโดยใช้ชุดข้อมูล VCTK

แยกคุณสมบัติเสียงโดยใช้ process_audio.ipynb
Extract Speaker Embeddings โดยใช้ Ipython Notebook Deep_Speaker/get_gvector.ipynb

ฝึกอบรมระบบ TTS Multispeaker พื้นฐาน

CUDA_VISIBLE_DEVICES=0 python synthesizer_train.py vctk datasets/vctk/synthesizer

อย่าลังเลที่จะประเมินและสังเคราะห์ตัวอย่างโดยใช้ syn.ipynb ระหว่างการฝึกอบรม

Neural Vocoder (Wavernn)

โดยการตั้งค่าเริ่มต้น Vocoder ยังได้รับการฝึกฝนโดยใช้ชุดข้อมูล VCTK มันจะง่ายหลังจากที่คุณมีคุณสมบัติอะคูสติกที่สกัดจากส่วนก่อนหน้า ( TTS synthesizer ) เพื่อประสิทธิภาพที่ดีขึ้นโปรดใช้ GTA mel-spectrogram ที่ได้รับจาก Vocoder_preprocess.py หลังจากการฝึกซ้อมซินธิไซเซอร์เสร็จสิ้น

CUDA_VISIBLE_DEVICES=0 python vocoder_train.py -g --syn_dir datasets/vctk/synthesizer vctk datasets/vctk

TTS synthesizer พร้อมข้อ จำกัด ข้อเสนอแนะ

ตั้งค่าเส้นทางไปยังทั้งสองรุ่นที่ได้รับการฝึกฝน (โมเดลการตรวจสอบลำโพงและซินธิไซเซอร์แบบหลายวง) โดยการเปลี่ยนคีย์ที่เกี่ยวข้องใน hparams.py
ฝึกอบรมแบบจำลองและประเมินผลทุกเวลาด้วย feedback_syn.ipynb
```
CUDA_VISIBLE_DEVICES=0 python fc_synthesizer_train.py
```

รูปแบบที่ได้รับการฝึกฝนมาก่อน

เครือข่ายฝังลำโพง
Baseline Synthesizer 1 (ใช้เป็นรูปแบบที่ได้รับการฝึกฝนสำหรับการฝึกอบรมข้อเสนอแนะ)
Baseline Synthesizer 2
TTS synthesizer พร้อมข้อ จำกัด ข้อเสนอแนะ
wavernn vocoder