ดาวน์โหลด Comprehensive E2E TTS - การดาวน์โหลดรหัสที่มาของ Comprehensive E2E TTS

Comprehensive E2E TTS

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Compleen-E2E-TTS-การใช้งาน Pytorch

ข้อความแบบ end-to-end-end-to-end ที่ไม่ใช่ คำพูด (สร้างข้อความที่ได้รับจากรูปแบบของคลื่น) ซึ่งสนับสนุนครอบครัวของแบบจำลองระยะเวลาที่ไม่ได้รับการดูแลของ SOTA โครงการนี้เติบโตขึ้นพร้อมกับชุมชนการวิจัย โดยมีวัตถุประสงค์เพื่อให้บรรลุ E2E-TTS ที่ดีที่สุด คำแนะนำใด ๆ ที่มีต่อ TTS แบบ end-to-end ที่ดีที่สุดยินดีต้อนรับ :)

การออกแบบสถาปัตยกรรม

Wavthruvec: การแสดงการพูดแฝงเป็นคุณสมบัติระดับกลางสำหรับการสังเคราะห์การพูดด้วยระบบประสาท (Siuzdak et al., 2022)
เจ็ตส์: การฝึกอบรมร่วมกันอย่างรวดเร็ว 2 และ HIFI-GAN สำหรับการพูดจบถึงการพูดจบ (Lim et al., 2022)

เครื่องเข้ารหัสภาษาศาสตร์

FastSpeech 2: ข้อความแบบ end-to-end ที่รวดเร็วและคุณภาพสูงถึงการพูด (Ren et al., 2020)

Audio upsampler

HIFI ++: เฟรมเวิร์กแบบครบวงจรสำหรับการเปล่งประกายประสาทส่วนขยายแบนด์วิดท์และการเพิ่มประสิทธิภาพการพูด (Andreev et al., 2022)
HIFI-GAN: เครือข่ายฝ่ายตรงข้ามกำเนิดเพื่อการสังเคราะห์การพูดที่มีประสิทธิภาพและมีความซื่อสัตย์สูง (Kong et al., 2020)

การสร้างแบบจำลองระยะเวลา

การสร้างแบบจำลองระยะเวลาที่แตกต่างกันสำหรับการพูดแบบ end-to-end (Nguyen et al., 2022)
การจัดตำแหน่ง TTS หนึ่งครั้งเพื่อปกครองพวกเขาทั้งหมด (Badlani et al., 2021)

เร็ว

ชุดข้อมูล หมายถึงชื่อของชุดข้อมูลเช่น LJSpeech และ VCTK ในเอกสารต่อไปนี้

การพึ่งพาอาศัยกัน

คุณสามารถติดตั้งการพึ่งพา Python ด้วย

 pip3 install -r requirements.txt

นอกจากนี้ Dockerfile ยังมีไว้สำหรับผู้ใช้ Docker

การอนุมาน

คุณต้องดาวน์โหลดโมเดลที่ผ่านการฝึกอบรม (จะแชร์เร็ว ๆ นี้) และวางไว้ใน output/ckpt/DATASET/

สำหรับ TTS ลำโพงเดียว Run

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

สำหรับ TTs หลายลำโพง

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

พจนานุกรมของลำโพงที่เรียนรู้สามารถพบได้ที่ preprocessed_data/DATASET/speakers.json และคำพูดที่สร้างขึ้นจะถูกนำไปใช้ใน output/result/

การอนุมานแบทช์

รองรับการอนุมานแบบแบทช์ด้วยลอง

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

เพื่อสังเคราะห์คำพูดทั้งหมดใน preprocessed_data/DATASET/val.txt

ความสามารถในการควบคุมได้

ระดับเสียง/ปริมาตร/การพูดของคำพูดสังเคราะห์สามารถควบคุมได้โดยการระบุอัตราส่วนระดับเสียง/พลังงาน/ระยะเวลาที่ต้องการ ตัวอย่างเช่นหนึ่งสามารถเพิ่มอัตราการพูดได้ 20 % และลดปริมาณลง 20 % โดย

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

เพิ่ม -Speaker_id Speaker_id สำหรับ TTS หลายลำโพง

การฝึกอบรม

ชุดข้อมูล

ชุดข้อมูลที่รองรับคือ

LJSpeech: ชุดข้อมูลภาษาอังกฤษ ลำโพงเดียว ประกอบด้วยคลิปเสียงสั้น 13100 คลิปของข้อความอ่านข้อความหญิงจากหนังสือสารคดี 7 เล่มรวมประมาณ 24 ชั่วโมง
VCTK: CSTR VCTK Corpus รวมถึงข้อมูลการพูดที่พูดโดยผู้พูดภาษาอังกฤษ 110 คน ( TTS หลายลำโพง ) ด้วยสำเนียงต่าง ๆ ผู้พูดแต่ละคนอ่านประมาณ 400 ประโยคซึ่งได้รับการคัดเลือกจากหนังสือพิมพ์ทางสายรุ้งและย่อหน้าที่ใช้สำหรับการเก็บถาวรคำพูด

ชุดข้อมูล TTS สองลำกล้องเดียว (เช่น Blizzard Challenge 2013) และชุดข้อมูล TTS หลายลำโพง (เช่น Libritts) สามารถเพิ่มได้ตาม LJSpeech และ VCTK ตามลำดับ ยิ่งไปกว่านั้น ภาษาและชุดข้อมูลของคุณเอง สามารถปรับได้ตามที่นี่

การประมวลผลล่วงหน้า

สำหรับ TTS หลายลำโพงที่ มีลำโพง Embedder ดาวน์โหลด Rescnn Softmax+Triplet Pretrained Model ของ Deepspeaker ของ Philipperemy สำหรับการฝังลำโพงและค้นหาใน ./deepspeaker/pretrained_models/ deepspeaker/pretrained_models/
เรียกใช้สคริปต์การประมวลผลล่วงหน้าโดย
```
 python3 preprocess.py --dataset DATASET
```

การฝึกอบรม

ฝึกอบรมแบบจำลองของคุณด้วย

 python3 train.py --dataset DATASET

ตัวเลือกที่มีประโยชน์:

ผู้ฝึกสอนถือว่าการฝึกอบรมหลายโหนดเดียว หากต้องการใช้ GPU ที่เฉพาะเจาะจงให้ระบุ CUDA_VISIBLE_DEVICES=<GPU_IDs> ที่จุดเริ่มต้นของคำสั่งด้านบน

บอร์ดบอร์ด

ใช้

 tensorboard --logdir output/log

เพื่อให้บริการ Tensorboard บนบ้านของคุณ

หมายเหตุ

สองตัวเลือกสำหรับการฝังสำหรับการตั้งค่า TTS หลายลำโพง : การฝึกอบรมลำโพงฝังตัวจากศูนย์หรือใช้โมเดล Deepspeaker ของ Philipperemy ที่ผ่านการฝึกอบรมมาก่อน (ตามที่ Styler ทำ) คุณสามารถสลับมันได้โดยการตั้งค่าการกำหนดค่า (ระหว่าง 'none' และ 'DeepSpeaker' )
Deepspeaker บนชุดข้อมูล VCTK แสดงการระบุที่ชัดเจนระหว่างลำโพง รูปต่อไปนี้แสดงพล็อต T-SNE ของการฝังลำโพงสกัด