การใช้งาน Pytorch ของเครือข่ายการสังเคราะห์คำพูดทาโคทรอนของ Google
การใช้งานนี้ยังรวมถึง ความสนใจที่ไวต่อสถานที่ และคุณสมบัติ โทเค็นหยุด จาก Tacotron 2
นอกจากนี้โมเดลยังได้รับการฝึกฝนในชุดข้อมูล LJ Speech พร้อมกับแบบจำลองที่ได้รับการฝึกอบรม

ตัวอย่างเสียงสามารถพบได้ในไดเรกทอรีผลลัพธ์
การใช้งานนี้ขึ้นอยู่กับ R9Y9/TACOTRON_PYTORCH ความแตกต่างหลักคือ:
นอกจากนี้ความแตกต่างบางอย่างจากกระดาษทาโคทรอนดั้งเดิมคือ:
คุณภาพเสียงยังไม่ดีเท่าการสาธิตของ Google แต่หวังว่ามันจะดีขึ้นในที่สุด ยินดีต้อนรับคำขอดึง!
git clone [email protected]:andi611/Tacotron-Pytorch.gitcd Tacotron-Pytorchติดตั้ง Python 3
ติดตั้ง Pytorch เวอร์ชันล่าสุดตามแพลตฟอร์มของคุณ เพื่อประสิทธิภาพที่ดีขึ้นให้ติดตั้งด้วย GPU Support (CUDA) หากทำงานได้ รหัสนี้ใช้งานได้กับ Pytorch 0.4 และใหม่กว่า
การติดตั้งข้อกำหนด:
pip3 install -r requirements.txt
คำเตือน: คุณต้องติดตั้งไฟฉายขึ้นอยู่กับแพลตฟอร์มของคุณ ที่นี่แสดงรายการรุ่น Pytorch ที่ใช้เมื่อสร้างโครงการนี้
ดาวน์โหลดชุดข้อมูล LJ Speech
คุณสามารถใช้ชุดข้อมูลอื่น ๆ หากคุณแปลงเป็นรูปแบบที่เหมาะสม ดูการฝึกอบรม _data.md สำหรับข้อมูลเพิ่มเติม
แกะชุดข้อมูลลงใน ~/Tacotron-Pytorch/data
หลังจากเปิดออกต้นไม้ของคุณควรมีลักษณะเช่นนี้สำหรับคำพูด LJ:
|- Tacotron-Pytorch
|- data
|- LJSpeech-1.1
|- metadata.csv
|- wavs
ประมวลผลชุดข้อมูลคำพูด LJ และสร้างไฟล์เมตาพร้อมรุ่นโดยใช้ preprocess.py:
python3 preprocess.py --mode make
หลังจากประมวลผลล่วงหน้าต้นไม้ของคุณจะมีลักษณะเช่นนี้:
|- Tacotron-Pytorch
|- data
|- LJSpeech-1.1 (The downloaded dataset)
|- metadata.csv
|- wavs
|- meta (generate by preprocessing)
|- meta_text.txt
|- meta_mel_xxxxx.npy ...
|- meta_spec_xxxxx.npy ...
|- test_transcripts.txt (provided)
ฝึกอบรมแบบจำลองโดยใช้ Train.py
python3 train.py --ckpt_dir ckpt/ --log_dir log/
กู้คืนการฝึกอบรมจากจุดตรวจก่อนหน้านี้:
python3 train.py --ckpt_dir ckpt/ --log_dir log/ --model_name 500000
hyperparameters ที่ปรับได้จะพบได้ใน config.py
คุณสามารถปรับพารามิเตอร์และการตั้งค่าเหล่านี้ได้โดยการแก้ไขไฟล์แนะนำให้ใช้พารามิเตอร์ไฮเปอร์พารามิเตอร์เริ่มต้นสำหรับคำพูด LJ
ตรวจสอบด้วย tensorboard (ไม่บังคับ)
tensorboard --logdir 'path to log_dir'
ผู้ฝึกสอนทิ้งเสียงและการจัดตำแหน่งทุกขั้นตอน 2,000 ขั้นตอนโดยค่าเริ่มต้น คุณสามารถค้นหาสิ่งเหล่านี้ได้ใน tacotron/ckpt/
python3 test.py --interactive --plot --model_name 500000
python3 test.py --plot --model_name 500000 --test_file_path ./data/test_transcripts.txt
เครดิตกับ Ryuichi Yamamoto สำหรับการใช้งาน Pytorch ที่ยอดเยี่ยมของ Tacotron ซึ่งงานนี้ส่วนใหญ่ขึ้นอยู่กับ งานนี้ยังได้รับแรงบันดาลใจจากการใช้งาน Tacotron 2 Pytorch ของ Nvidia