ไม่ใช่ภาษาอังกฤษ Tacotron-2-Training-Notebook
โน๊ตบุ๊คการฝึกอบรม Tacotron 2 สนับสนุนญี่ปุ่นฝรั่งเศสและแมนดาริน
ภาพรวม
โน้ตบุ๊กนี้มีวัตถุประสงค์เพื่อให้เข้าถึงรุ่นฝึกอบรม Tacotron 2 ในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษได้ง่ายขึ้น ปัจจุบันมีการรวมโมเดลภาษาญี่ปุ่น (Talqu และ Neutalk), French, และ Mandarin Pretrained Model แต่แผนจะรวมไว้ในอนาคตเช่นภาษาเยอรมัน สำหรับภาษาญี่ปุ่นขอแนะนำให้ใช้สัทศาสตร์ neutalk และแบบจำลองก่อนหน้า
เสียงที่รองรับ
เสียงสำหรับการฝึกอบรมควรเป็นไฟล์ 16050Hz Mono WAV อย่ารวมช่องว่างในชื่อไฟล์ ไฟล์ควรรวมถึงตัวอักษรและตัวเลข (ครึ่งความกว้าง), ขีดกลางและขีดเส้นใต้ ซึ่งหมายความว่าไม่มีชื่อไฟล์ภาษาญี่ปุ่นหรือจีนหรือ diacritics คลิปเสียงควรใช้เวลา 10 วินาทีหรือน้อยกว่าเพื่ออำนวยความสะดวกในการเรียนรู้ จากการทดสอบของฉันฉันขอแนะนำให้มีเสียงอย่างน้อย 15 นาที
การถอดความ
ไฟล์การถอดความควรเป็นเอกสารข้อความที่มีแต่ละบรรทัดที่มีรูปแบบต่อไปนี้: wavs/{name_of_file}.wav|{text} ใช้หนึ่งใน G2Ps ที่รวมอยู่เพื่อแปลงการถอดรหัสเป็นอินพุตการออกเสียงที่เหมาะสม
การฝึกอบรม
ขั้นตอนในโน้ตบุ๊กควรจะอธิบายตนเองค่อนข้างฉันหวังว่า อัปโหลดเสียงของคุณไปยัง WAVS/ โฟลเดอร์ก่อนเริ่มการฝึกอบรม นี่คือหมายเหตุบางอย่างที่ต้องจำไว้:
- ขนาดแบทช์ควรเป็นปัจจัยของปริมาณ WAV ที่คุณมี ตัวอย่างเช่นเมื่อฝึกอบรมแบบจำลองที่มี 15 wavs ฉันตั้งค่าขนาดแบทช์เป็น 5
- หากคุณมี T4 GPU บน colab อย่าตั้งค่าขนาดแบทช์สูงกว่า 14
- ไดเรกทอรีเอาท์พุทสำหรับการฝึกอบรมควรอยู่ใน Google Drive ในกรณีที่คุณถูกตัดการเชื่อมต่อ
- ในขณะที่คุณฝึกอบรมจุดตรวจจะสร้างขึ้น ลบอันเก่าและถังขยะเปล่าเพื่อให้ที่เก็บไดรฟ์ของคุณพร้อมใช้งาน
- หยุดการฝึกอบรมเมื่อคุณได้รับการตรวจสอบการตรวจสอบที่เหมาะสม ตัวอย่างเช่นสิ่งที่ฉันทำคือ: น้อยกว่า 30 ไฟล์ = ต่ำกว่า 0.07; 30-100 ไฟล์ = ต่ำกว่า 0.09; 150+ ไฟล์ = ต่ำกว่า 0.1; ข้อมูลมากกว่า 30 นาที = ต่ำกว่า 0.14
การอ้างเหตุผล
- ระบบการออกเสียง Talqu โดย Haruqa (https://booth.pm/ja/items/2755336)
- ระบบการออกเสียงญี่ปุ่น neutalk โดย Neutrogic (https://github.com/neutrogic/neutalk)
- Talqu Pretrained Model โดย Haruqa (https://github.com/haruqa/tacotron2/releases)
- Neutalk Japanese และ Mandarin Pretrained Model โดย Neutrogic (https://github.com/neutrogic/neutalk)
- แบบจำลองที่ผ่านการฝึกอบรมภาษาฝรั่งเศสสร้างโดย Mildemelwe และได้รับการฝึกฝนโดย Neutrogic (https://github.com/neutrogic)
- ตามรหัสจากสมุดฝึกอบรม Uberduck Tacotron 2 Notebook (https://colab.research.google.com/drive/1wtilmdm9vf7ke79gzkeetbigan6iv3bg?usp=sharing)
- Tacotron 2 การใช้งานโดย Nvidia (https://github.com/nvidia/tacotron2)