End to End TTS Fine Tune End to End TTS Fine Tune

End to End TTS Fine Tune

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การปรับ TTS แบบ end-to-end

การแนะนำ

โครงการนี้มีวัตถุประสงค์เพื่อพัฒนาระบบ TTS ของ ' AI Assistant for Seniors ' คุณสามารถสร้างผู้ช่วยปัญญาประดิษฐ์ด้วยเสียงของครอบครัวหรือเพื่อนและคนรักด้วยการบันทึกเสียงเพียง 5 นาที
เพื่อที่จะรับมือกับลำโพง AI ที่ต้องใช้การสร้างแบบเรียลไทม์เราได้นำรุ่นอะคูสติกที่ไม่ใช่ Autoregressive-Acoustic FastSpe2 และ HIFI-GAN รุ่น Vocoder ที่ใช้ GAN เพื่อพิจารณาคุณภาพและความเร็วในการผลิต
ศุลกากรเพิ่มเติมได้ดำเนินการเพื่อปรับปรุงประสิทธิภาพของลำโพงหลาย
ที่เก็บนี้ได้รับการกำหนดค่าให้ดำเนินการเรียนรู้และสร้างกระบวนการโดยใช้เชลล์สคริปต์เพื่อกำหนดค่า D-Vector Multi Speaker FastSpeech2 และรุ่น HIFI-GAN เพื่อให้ปรับแต่งได้ดี
ในการให้ TTS แบบเรียลไทม์ในแอพให้ใช้ fastapi เพื่อกำหนดค่าเซิร์ฟเวอร์และลิงก์ด้วยแบ็กเอนด์

วัตถุประสงค์โครงการ

Acoustic-FastSpeech2 (กำหนดเอง)
ประสิทธิภาพที่สมเหตุสมผลโดยใช้การเรียนรู้การถ่ายโอนเพื่อการปรับเปลี่ยนเป็นส่วนตัวด้วยข้อมูลจำนวนเล็กน้อย
ให้ API ที่สามารถสร้างได้ด้วยการปรับแต่งชุดข้อมูลเกาหลีแบบเรียลไทม์

ชุดข้อมูล

ตาม FINE_TUNE_TRANSCript.txt ที่เป็นของโฟลเดอร์ชุดข้อมูลบันทึก 100 ประโยคด้วยหมายเลขด้วยสมาร์ทโฟนและแปลงไฟล์ M4A เป็นไฟล์ WAV ด้วยอัตราการสุ่มตัวอย่าง 16000 (FFMPEG)

ดังที่แสดงในรูปไฟล์ WAV ที่แปลงแล้ว 100 ไฟล์จะถูกเพิ่มลงในโฟลเดอร์เริ่มต้นของคุณ

ผลงาน

การปรับเปลี่ยนรหัสโมเดลตามการปรับแต่ง
- FastSpeech2 และการปรับเปลี่ยนและการรวม HIFI-GAN
- ชุดข้อมูล CKPT และผลลัพธ์จะถูกแบ่งออกเป็นไดเรกทอรีระดับบนสุดตามชุดข้อมูล
ประมวลผลล่วงหน้าง่ายรถไฟการสังเคราะห์ผ่านเชลล์สคริปต์
- โดยการเปลี่ยนไดเรกทอรีชุดข้อมูล
ให้ภาพนักเทียบท่าที่ไม่ซ้ำกัน
- จัดเตรียมรูปภาพที่สามารถทำได้ทันทีโดยไม่ต้องเพิ่มแพ็คเกจการพึ่งพาเพิ่มเติมที่ซับซ้อน
- นำเข้าภาพล่าสุดผ่านลิงค์ Docker Hub

ผลงานที่ผ่านมา

มันตรงกับชื่อไฟล์ของ FastSpeech2 และ HIFI-GAN ที่ผ่านการฝึกอบรมมาก่อนและเก็บไว้ในแต่ละรุ่น
(FastSpeech2: 30,000 ขั้นตอนการเรียนรู้ / hifi -gan -gan -jungil อย่างเป็นทางการของ King Pretated -University -University)
สำหรับการเรียนรู้และการสังเคราะห์เราโหลดและดำเนินการอิมเมจนักเทียบท่าที่มีแพ็คเกจขึ้นอยู่กับทั้งหมด
```
 docker pull hws0120/e2e_speech_synthesis 
```
Run_fs2_preprocessing.sh ขั้นตอนเชื่อมต่อกับ Docker ด้วยคำสั่ง conda และติดตั้งแพ็คเกจ Python Jamo
```
 conda activate aligner
pip install jamo
```
จุดสิ้นสุดของสภาพแวดล้อมเสมือนจริงเพื่อดำเนินการ run_fs2_train หรือการสังเคราะห์
```
 conda activate base
```

การประมวลผลล่วงหน้า

หากคุณพบรายการทั้งหมดข้างต้นให้เรียกใช้เชลล์สคริปต์เพื่อแยก MFA
```
 sh run_FS2_preprocessing.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```

รถไฟ

ประสบความสำเร็จในการสร้าง TextGrid เพื่อออกจากสภาพแวดล้อมเสมือนจริงและเรียกใช้สคริปต์การเรียนรู้
```
 sh run_FS2_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```
เมื่อ FastSpeech2 5000 การเรียนรู้เสร็จสิ้นให้เรียกใช้สคริปต์ HIFI-GAN
```
 sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```

สังเคราะห์

เมื่อโมเดลที่เรียนรู้ในโฟลเดอร์ CKPT พร้อมให้เรียกใช้สคริปต์สำหรับการสังเคราะห์
```
 sh run_FS2_synthesize.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```