ดาวน์โหลด german tts - ดาวน์โหลดซอร์สโค้ด german tts

german tts

โค้ดแหล่งที่มา AI

v1

ดาวน์โหลด

ภาษาเยอรมัน TTS

Tacotron 2 และ Melgan Multi-band ใน Tensorflow ด้วยการสนับสนุนการอนุมาน TF Lite

การรับทราบ

Google สนับสนุนงานนี้โดยให้เครดิต Google Cloud ขอบคุณ Google ที่สนับสนุนโอเพ่นซอร์ส! -

ภาพรวม

ฉันกำลังเปิดตัวข้อความประสาทข้อความภาษาเยอรมันที่ได้รับการฝึกฝนมาก่อน (TTS) Tacotron 2 และ Melgan หลายแบนด์ รองรับการอนุมานด้วยรูปแบบ saved_model และ TF Lite และทุกรุ่นสามารถพบได้ใน Hub Tensorflow

ทักทายในการสนทนาหากคุณพบว่ามีประโยชน์สำหรับทุกสิ่ง

ดู inference.py เพื่ออนุมานด้วย saved_model
ดู inference_tflite.py เพื่ออนุมานกับ TF Lite
ดู e2e-notebook.ipynb เพื่อตรวจสอบว่าฉันส่งออกไปยังรูปแบบรุ่นเหล่านี้อย่างไร
ดูรุ่นเพื่อดาวน์โหลดรุ่นที่ผ่านการฝึกอบรม

ชุดข้อมูล

ฉันฝึกอบรมโมเดลเหล่านี้ในชุดข้อมูล Thorsten โดย Thorsten Müller ได้รับใบอนุญาตภายใต้เงื่อนไขของ Creative Commons Zero V1 Universal (CC0) ซึ่งใช้ในการยกเลิกลิขสิทธิ์ทั้งหมดและตรวจสอบให้แน่ใจว่างานนั้นมีการเข้าถึงที่กว้างที่สุด ขอบคุณ @thorstenmueller สำหรับการสนับสนุนที่ดีให้กับชุมชน

หมายเหตุ

ผู้ชายที่ดีบางคนกำลังทำงานที่ยอดเยี่ยมที่ Tensorspeech/Tensorflowtts ซึ่งสนับสนุน TTS ในภาษาอังกฤษจีนและเกาหลีแล้ว ฉันต้องการมีส่วนร่วมในการสนับสนุนภาษาเยอรมันและฝึกอบรมโมเดลเหล่านี้ ตอนนี้รองรับทั้งการฝึกอบรมและการอนุมานด้วยโปรเซสเซอร์ที่เหมาะสม โพสต์บล็อกโดยละเอียดจะติดตาม แต่บันทึกย่อบางอย่างสำหรับตอนนี้:

ฉันใช้ประโยชน์จาก German_Transliterate สำหรับการประมวลผลข้อความล่วงหน้า โดยพื้นฐานแล้วมันทำให้ตัวเลขเป็นปกติ (เช่นแปลงตัวเลขเป็นคำ) ขยายตัวย่อและใส่ใจ umlauts เยอรมันและเครื่องหมายวรรคตอน สำหรับตัวอย่างการอนุมานที่ปล่อยออกมาใน repo นี้มันเป็นการพึ่งพาเพียงอย่างเดียวนอกเหนือจาก tensorflow
คุณต้องแปลงข้อความอินพุตเป็น ID ตัวเลขเพื่อป้อนเข้าสู่โมเดล ฉันกำลังแบ่งปันการใช้งานอ้างอิงสำหรับตัวอย่างนี้ในตัวอย่างการอนุมานและคุณต้องใช้รหัสตรรกะนี้เพื่อใช้โมเดลในสภาพแวดล้อมที่ไม่ใช่ Python (เช่น Android)
Tacotron 2 สร้างเสียงรบกวนในตอนท้ายและคุณต้องตัดมันออก อีกครั้งตัวอย่างการอนุมานแสดงวิธีการทำเช่นนี้
ฉันส่งออก Multi-band MelGAN ไปยัง TF Lite โดยไม่ต้องเพิ่มประสิทธิภาพเพราะมันสร้างเสียงรบกวนจากพื้นหลังเมื่อฉันส่งออกด้วยค่าเริ่มต้น ฉันใช้การเพิ่มประสิทธิภาพเริ่มต้นใน Tacotron 2
รูปแบบ saved_model ที่ฉันปล่อยที่นี่ไม่เหมาะสำหรับการ finetuning การใช้งานสถาปัตยกรรมใช้ Subclassing API ใน TensorFlow 2.x และได้รับอินพุตหลายครั้งในวิธี call สำหรับการบังคับครูในระหว่างการฝึกอบรม สิ่งนี้ทำให้เกิดปัญหาบางอย่างเมื่อส่งออกไปยัง saved_model และฉันต้องลบตรรกะนี้ก่อนส่งออก หากคุณต้องการสร้างโมเดล Finetune โปรดดูส้อมของฉันของ TensorFlowtts

ใบอนุญาต

คุณสามารถใช้สิ่งประดิษฐ์โมเดลที่ผ่านการฝึกอบรมเหล่านี้และตัวอย่างรหัสภายใต้ข้อกำหนดของใบอนุญาต Apache 2.0 ในทางกลับกันคุณอาจต้องการติดต่อฉันเพื่อขอคำปรึกษาและ/หรือความร่วมมือในโครงการพูดและ/หรือ NLP ตามที่อยู่อีเมลที่แสดงในโปรไฟล์ของฉัน

ขยาย

ข้อมูลเพิ่มเติม