ดาวน์โหลด PortaSpeech - ดาวน์โหลดซอร์สโค้ด PortaSpeech

PortaSpeech

โค้ดแหล่งที่มา AI

v0.2.0

ดาวน์โหลด

Portaspeech - การใช้งาน Pytorch

การใช้งาน Pytorch ของ Portaspeech: ข้อความแบบพกพาและคุณภาพสูง

ตัวอย่างเสียง

ตัวอย่างเสียงมีให้ที่ /สาธิต

ขนาดรุ่น

โมดูล	ปกติ	เล็ก	ปกติ (กระดาษ)	เล็ก (กระดาษ)
ทั้งหมด	24 เมตร	7.6m	21.8m	6.7m
ภาษาศาสตร์	3.7m	1.4m	-	-
ตัวแปร	11m	2.8m	-	-
flowpostnet	9.3m	3.4m	-	-

เร็ว

ชุดข้อมูล หมายถึงชื่อของชุดข้อมูลเช่น LJSpeech ในเอกสารต่อไปนี้

การพึ่งพาอาศัยกัน

คุณสามารถติดตั้งการพึ่งพา Python ด้วย

 pip3 install -r requirements.txt

นอกจากนี้ Dockerfile ยังมีไว้สำหรับผู้ใช้ Docker

การอนุมาน

คุณต้องดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมและวางไว้ใน output/ckpt/DATASET/

สำหรับ TTS ลำโพงเดียว Run

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

คำพูดที่สร้างขึ้นจะถูกนำไปใช้ใน output/result/

การอนุมานแบทช์

รองรับการอนุมานแบบแบทช์ด้วยลอง

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

เพื่อสังเคราะห์คำพูดทั้งหมดใน preprocessed_data/DATASET/val.txt

ความสามารถในการควบคุมได้

อัตราการพูดของคำพูดสังเคราะห์สามารถควบคุมได้โดยการระบุอัตราส่วนระยะเวลาที่ต้องการ ตัวอย่างเช่นหนึ่งสามารถเพิ่มอัตราการพูดได้ 20 โดย

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

โปรดทราบว่าความสามารถในการควบคุมนั้นมีต้นกำเนิดมาจาก FastSpeech2 และไม่ใช่ความสนใจที่สำคัญของ portaspeech

การฝึกอบรม

ชุดข้อมูล

ชุดข้อมูลที่รองรับคือ

LJSpeech: ชุดข้อมูลภาษาอังกฤษ ลำโพงเดียว ประกอบด้วยคลิปเสียงสั้น 13100 คลิปของข้อความอ่านข้อความหญิงจากหนังสือสารคดี 7 เล่มรวมประมาณ 24 ชั่วโมง

การประมวลผลล่วงหน้า

วิ่ง

 python3 prepare_align.py --dataset DATASET

สำหรับการเตรียมการบางอย่าง

สำหรับการจัดตำแหน่งที่ถูกบังคับมอนทรีออลบังคับให้ผู้จัดตำแหน่ง (MFA) ใช้เพื่อให้ได้การจัดตำแหน่งระหว่างคำพูดและลำดับฟอนิม การจัดตำแหน่งที่สกัดไว้ล่วงหน้าสำหรับชุดข้อมูลมีให้ที่นี่ คุณต้องคลายซิปไฟล์ใน preprocessed_data/DATASET/TextGrid/ อีกวิธีหนึ่งคุณสามารถเรียกใช้การจัดตำแหน่งด้วยตัวเอง

หลังจากนั้นเรียกใช้สคริปต์การประมวลผลล่วงหน้าโดย

 python3 preprocess.py --dataset DATASET

การฝึกอบรม

ฝึกอบรมแบบจำลองของคุณด้วย

 python3 train.py --dataset DATASET

ตัวเลือกที่มีประโยชน์:

หากต้องการใช้ความแม่นยำแบบผสมอัตโนมัติต่อภาคผนวก --use_amp อาร์กิวเมนต์ไปยังคำสั่งด้านบน
ผู้ฝึกสอนถือว่าการฝึกอบรมหลายโหนดเดียว หากต้องการใช้ GPU ที่เฉพาะเจาะจงให้ระบุ CUDA_VISIBLE_DEVICES=<GPU_IDs> ที่จุดเริ่มต้นของคำสั่งด้านบน

บอร์ดบอร์ด

ใช้

 tensorboard --logdir output/log

เพื่อให้บริการ Tensorboard บนบ้านของคุณ เส้นโค้งการสูญเสีย mel-spectrograms สังเคราะห์และเสียงจะแสดง

โมเดลปกติ

การสูญเสียแบบจำลองขนาดเล็ก

หมายเหตุ

สำหรับ Vocoder ได้รับการสนับสนุน Hifi-Gan และ Melgan
ไม่มีการเปิดใช้งาน relu และ layernorm ใน VariationalGenerator เพื่อหลีกเลี่ยงเอาท์พุทบด
เร่งการบรรจบกันของการจัดตำแหน่งแบบคำเป็น phoneme ใน ภาษาศาสตร์ โดยการแบ่งคำยาวเป็นคำย่อยและเรียงลำดับชุดข้อมูลตามความยาวเฟรม mel-spectrogram
มีการสูญเสียผู้ช่วยสองประเภทเพื่อปรับปรุงการจัดตำแหน่งแบบคำว่าเป็น phoneme: "CTC" และ "DGA" คุณสามารถสลับพวกเขาได้ดังนี้:
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- "DGA": การสูญเสียความสนใจในแนวทแยง (DGA) การสูญเสีย
- "CTC": การจำแนกประเภทการเชื่อมต่อชั่วคราว (CTC) การสูญเสียด้วยอัลกอริทึม Sum Forward Sum
- หากคุณตั้งค่า "ไม่มี" จะไม่มีการสูญเสียผู้ช่วยในระหว่างการฝึกอบรม
- การเปรียบเทียบการจัดตำแหน่งสามวิธี ("DGA", "CTC" และ "ไม่มี" จากบนลงล่าง):
- การตั้งค่าเริ่มต้นคือ "DGA" แม้ว่า "CTC" จะทำให้การจัดตำแหน่งที่แข็งแกร่งที่สุด แต่คุณภาพเอาท์พุทและความแม่นยำนั้นเลวร้ายยิ่งกว่า "DGA"
- แต่ถึงกระนั้นก็มีห้องพักสำหรับการปรับปรุงคุณภาพเอาท์พุท คุณภาพเสียงและการ alingment (ความแม่นยำ) ดูเหมือนจะเป็นการแลกเปลี่ยน
จะถูกขยายไปยัง TTs หลายลำโพง