ดาวน์โหลด ttts - ดาวน์โหลดซอร์สโค้ด ttts

ttts

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Detailtts: การเรียนรู้ข้อมูลรายละเอียดที่เหลือสำหรับ zero-shot text-to-speech

ภาพ

แรงบันดาลใจ

เพื่อความรู้ที่ดีที่สุดของฉันวิธีการในโครงการนี้เป็นครั้งแรกที่ฉันเสนอ แนวคิดหลักเกิดจากการสร้างแบบจำลองของ 'รายละเอียด' เนื่องจากฉันมีปัญหากับความจริงที่ว่าวิธีการที่ใช้ VQ (Vector Quantization) ไม่สามารถสร้างเสียงได้เป็นอย่างดีและยังไม่มีวิธีการจำลองที่เหลือนี้ อย่างไรก็ตามสำหรับ VITS แบบดั้งเดิมมีวิธีการสร้างสัญญาณกำกับดูแลบางอย่างเช่นสเปกตรัมเชิงเส้นหรือโดยใช้การฝังที่เรียนรู้ได้เพื่อเรียนรู้ระยะเวลา ในที่สุดการสังเกตเหล่านี้นำไปสู่วิธีนี้เพื่อให้ได้ผลลัพธ์ที่ดีมาก

การสาธิต

เยี่ยมชมหน้าสาธิต

ติดตั้ง

เยี่ยมชมรุ่นที่ผ่านการฝึกอบรมมาก่อน

 pip install -e .

การฝึกอบรม

1. การฝึก Tokenizer

ใช้ ttts/prepare/bpe_all_text_to_one_file.py เพื่อรวมข้อความทั้งหมดที่คุณรวบรวม ในการฝึกอบรมโทเค็นให้ตรวจสอบ ttts/gpt/voice_tokenizer สำหรับข้อมูลเพิ่มเติม

2. การฝึกอบรม VQVAE

ใช้ 1_vad_asr_save_to_jsonl.py และ 2_romanize_text.py ไปยังชุดข้อมูลล่วงหน้า ใช้คำแนะนำต่อไปนี้เพื่อฝึกอบรมแบบจำลอง

 accelerate launch ttts/vqvae/train_v3.py

ภาษาหลายภาษา

ตอนนี้สนับสนุนจีน, อังกฤษ, ญี่ปุ่น, เกาหลี

คุณสามารถใช้ภาษาใดก็ได้กับโมเดลนี้ด้วยสองขั้นตอน

ก่อนอื่นรวบรวมข้อความมากมายของภาษานี้
ประการที่สองฝึกอบรม ttts/gpt/voice_tokenizer เพื่อรับพจนานุกรม

สำหรับภาษาอังกฤษคุณสามารถใช้ข้อความได้โดยตรง อย่างไรก็ตามสำหรับภาษาจีนคุณต้องใช้พินอินและสำหรับญี่ปุ่นคุณต้องใช้ Romaji ตรวจสอบให้แน่ใจว่าได้รวมข้อมูลการออกเสียงในข้อความ

การอนุมาน

โปรดตรวจสอบ api.py สำหรับรายละเอียดการอนุมาน

การทำให้หมดแรง

เปลี่ยนเส้นทางโหลดใน train_v3.py ด้วยรุ่นที่ผ่านการฝึกอบรมแล้วฝึกซ้อม เกี่ยวกับชุดข้อมูลคุณควรประมวลผลข้อความและเสียงและละตินล่วงหน้า คุณสามารถอ้างถึง ttts/prepare/2_romanize_text.py สำหรับข้อมูลบางอย่าง