TTS Tacotron Pytorch ดาวน์โหลด - TTS Tacotron Pytorch ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

TTS Tacotron Pytorch

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ทาโคทรอน

การใช้งาน Pytorch ของเครือข่ายการสังเคราะห์คำพูดทาโคทรอนของ Google

การใช้งานนี้ยังรวมถึง ความสนใจที่ไวต่อสถานที่ และคุณสมบัติ โทเค็นหยุด จาก Tacotron 2

นอกจากนี้โมเดลยังได้รับการฝึกฝนในชุดข้อมูล LJ Speech พร้อมกับแบบจำลองที่ได้รับการฝึกอบรม

ตัวอย่างเสียงสามารถพบได้ในไดเรกทอรีผลลัพธ์

การแนะนำ

การใช้งานนี้ขึ้นอยู่กับ R9Y9/TACOTRON_PYTORCH ความแตกต่างหลักคือ:

เพิ่ม ความสนใจที่ไวต่อตำแหน่ง และ โทเค็นหยุด จากกระดาษทาโคทรอน 2 สิ่งนี้สามารถลดระยะเวลาและข้อมูลที่จำเป็นในการฝึกอบรมแบบจำลองได้อย่างมาก
ลบการพึ่งพา tensorflow ทั้งหมดที่ R9Y9 ใช้ตอนนี้มัน ทำงานบน pytorch และ pytorch เท่านั้น
เพิ่มโมดูลการสูญเสียและใช้การสูญเสีย L2 (MSE) แทนการสูญเสีย L1
เพิ่มโมดูลตัวโหลดข้อมูล
รวมสคริปต์การประมวลผลข้อมูลคำพูด LJ จาก Keithito
โค้ดแฟคตอริ่งและการเพิ่มประสิทธิภาพเพื่อการดีบักที่ง่ายขึ้นและขยายความฟุ่มเฟือย

นอกจากนี้ความแตกต่างบางอย่างจากกระดาษทาโคทรอนดั้งเดิมคือ:

ทำนาย R = 5 เฟรมที่ไม่ได้อยู่ตรงข้ามต่อเนื่องกันอย่างต่อเนื่องในแต่ละขั้นตอนถอดรหัสแทน R = 2
ป้อนเฟรม R ทั้งหมดไปยังขั้นตอนอินพุตตัวถอดรหัสถัดไปแทนเฟรมสุดท้ายของเฟรม R
ปรับการสูญเสียของสเปกโตรแกรมเชิงเส้นที่คาดการณ์ไว้เพื่อให้ความถี่ที่ต่ำกว่าที่สอดคล้องกับคำพูดของมนุษย์ (0 ถึง 3000 Hz) มีน้ำหนักมากขึ้น
ไม่ได้ใช้หน้ากากที่สูญเสียในการเรียนรู้ตามลำดับต่อลำดับสิ่งนี้จะบังคับให้แบบจำลองเพื่อเรียนรู้เมื่อใดที่จะหยุดการสังเคราะห์
ปิดการใช้งานอคติสำหรับหน่วย convolution 1 มิติใน CBHG modulehas รายละเอียดการใช้งานเหล่านี้ช่วยการลู่เข้าของโมเดล

คุณภาพเสียงยังไม่ดีเท่าการสาธิตของ Google แต่หวังว่ามันจะดีขึ้นในที่สุด ยินดีต้อนรับคำขอดึง!

เริ่มต้นอย่างรวดเร็ว

การตั้งค่า

โคลน repo นี้: git clone [email protected]:andi611/Tacotron-Pytorch.git
CD ใน repo นี้: cd Tacotron-Pytorch

การติดตั้งการอ้างอิง

ติดตั้ง Python 3
ติดตั้ง Pytorch เวอร์ชันล่าสุดตามแพลตฟอร์มของคุณ เพื่อประสิทธิภาพที่ดีขึ้นให้ติดตั้งด้วย GPU Support (CUDA) หากทำงานได้ รหัสนี้ใช้งานได้กับ Pytorch 0.4 และใหม่กว่า
การติดตั้งข้อกำหนด:
```
 pip3 install -r requirements.txt
```
คำเตือน: คุณต้องติดตั้งไฟฉายขึ้นอยู่กับแพลตฟอร์มของคุณ ที่นี่แสดงรายการรุ่น Pytorch ที่ใช้เมื่อสร้างโครงการนี้

การฝึกอบรม

ดาวน์โหลดชุดข้อมูล LJ Speech
- คำพูด LJ
คุณสามารถใช้ชุดข้อมูลอื่น ๆ หากคุณแปลงเป็นรูปแบบที่เหมาะสม ดูการฝึกอบรม _data.md สำหรับข้อมูลเพิ่มเติม
แกะชุดข้อมูลลงใน ~/Tacotron-Pytorch/data
หลังจากเปิดออกต้นไม้ของคุณควรมีลักษณะเช่นนี้สำหรับคำพูด LJ:
```
 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1
			 |- metadata.csv
			 |- wavs
```
ประมวลผลชุดข้อมูลคำพูด LJ และสร้างไฟล์เมตาพร้อมรุ่นโดยใช้ preprocess.py:
```
 python3 preprocess.py --mode make
```
หลังจากประมวลผลล่วงหน้าต้นไม้ของคุณจะมีลักษณะเช่นนี้:
```
 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1 (The downloaded dataset)
			 |- metadata.csv
			 |- wavs
		 |- meta (generate by preprocessing)
			 |- meta_text.txt 
			 |- meta_mel_xxxxx.npy ...
			 |- meta_spec_xxxxx.npy ...
		 |- test_transcripts.txt (provided)
```
ฝึกอบรมแบบจำลองโดยใช้ Train.py
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/
```
กู้คืนการฝึกอบรมจากจุดตรวจก่อนหน้านี้:
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/ --model_name 500000
```
hyperparameters ที่ปรับได้จะพบได้ใน config.py
คุณสามารถปรับพารามิเตอร์และการตั้งค่าเหล่านี้ได้โดยการแก้ไขไฟล์แนะนำให้ใช้พารามิเตอร์ไฮเปอร์พารามิเตอร์เริ่มต้นสำหรับคำพูด LJ
ตรวจสอบด้วย tensorboard (ไม่บังคับ)
```
 tensorboard --logdir 'path to log_dir'
```
ผู้ฝึกสอนทิ้งเสียงและการจัดตำแหน่งทุกขั้นตอน 2,000 ขั้นตอนโดยค่าเริ่มต้น คุณสามารถค้นหาสิ่งเหล่านี้ได้ใน tacotron/ckpt/

การทดสอบ: การใช้แบบจำลองที่ผ่านการฝึกอบรมมาก่อนและทดสอบ

เรียกใช้สภาพแวดล้อมการทดสอบด้วยโหมดอินเทอร์แอคทีฟ :
```
 python3 test.py --interactive --plot --model_name 500000
```
เรียกใช้อัลกอริทึมการทดสอบในชุดการถอดเสียง (ผลลัพธ์สามารถพบได้ในไดเรกทอรีผลลัพธ์/500000):
```
 python3 test.py --plot --model_name 500000 --test_file_path ./data/test_transcripts.txt
```

การรับทราบ

เครดิตกับ Ryuichi Yamamoto สำหรับการใช้งาน Pytorch ที่ยอดเยี่ยมของ Tacotron ซึ่งงานนี้ส่วนใหญ่ขึ้นอยู่กับ งานนี้ยังได้รับแรงบันดาลใจจากการใช้งาน Tacotron 2 Pytorch ของ Nvidia