Tacotron 2 และ Melgan Multi-band ใน Tensorflow ด้วยการสนับสนุนการอนุมาน TF Lite
Google สนับสนุนงานนี้โดยให้เครดิต Google Cloud ขอบคุณ Google ที่สนับสนุนโอเพ่นซอร์ส! -
ฉันกำลังเปิดตัวข้อความประสาทข้อความภาษาเยอรมันที่ได้รับการฝึกฝนมาก่อน (TTS) Tacotron 2 และ Melgan หลายแบนด์ รองรับการอนุมานด้วยรูปแบบ saved_model และ TF Lite และทุกรุ่นสามารถพบได้ใน Hub Tensorflow
ทักทายในการสนทนาหากคุณพบว่ามีประโยชน์สำหรับทุกสิ่ง
inference.py เพื่ออนุมานด้วย saved_modelinference_tflite.py เพื่ออนุมานกับ TF Litee2e-notebook.ipynb เพื่อตรวจสอบว่าฉันส่งออกไปยังรูปแบบรุ่นเหล่านี้อย่างไรฉันฝึกอบรมโมเดลเหล่านี้ในชุดข้อมูล Thorsten โดย Thorsten Müller ได้รับใบอนุญาตภายใต้เงื่อนไขของ Creative Commons Zero V1 Universal (CC0) ซึ่งใช้ในการยกเลิกลิขสิทธิ์ทั้งหมดและตรวจสอบให้แน่ใจว่างานนั้นมีการเข้าถึงที่กว้างที่สุด ขอบคุณ @thorstenmueller สำหรับการสนับสนุนที่ดีให้กับชุมชน
ผู้ชายที่ดีบางคนกำลังทำงานที่ยอดเยี่ยมที่ Tensorspeech/Tensorflowtts ซึ่งสนับสนุน TTS ในภาษาอังกฤษจีนและเกาหลีแล้ว ฉันต้องการมีส่วนร่วมในการสนับสนุนภาษาเยอรมันและฝึกอบรมโมเดลเหล่านี้ ตอนนี้รองรับทั้งการฝึกอบรมและการอนุมานด้วยโปรเซสเซอร์ที่เหมาะสม โพสต์บล็อกโดยละเอียดจะติดตาม แต่บันทึกย่อบางอย่างสำหรับตอนนี้:
Tacotron 2 สร้างเสียงรบกวนในตอนท้ายและคุณต้องตัดมันออก อีกครั้งตัวอย่างการอนุมานแสดงวิธีการทำเช่นนี้Multi-band MelGAN ไปยัง TF Lite โดยไม่ต้องเพิ่มประสิทธิภาพเพราะมันสร้างเสียงรบกวนจากพื้นหลังเมื่อฉันส่งออกด้วยค่าเริ่มต้น ฉันใช้การเพิ่มประสิทธิภาพเริ่มต้นใน Tacotron 2saved_model ที่ฉันปล่อยที่นี่ไม่เหมาะสำหรับการ finetuning การใช้งานสถาปัตยกรรมใช้ Subclassing API ใน TensorFlow 2.x และได้รับอินพุตหลายครั้งในวิธี call สำหรับการบังคับครูในระหว่างการฝึกอบรม สิ่งนี้ทำให้เกิดปัญหาบางอย่างเมื่อส่งออกไปยัง saved_model และฉันต้องลบตรรกะนี้ก่อนส่งออก หากคุณต้องการสร้างโมเดล Finetune โปรดดูส้อมของฉันของ TensorFlowtts คุณสามารถใช้สิ่งประดิษฐ์โมเดลที่ผ่านการฝึกอบรมเหล่านี้และตัวอย่างรหัสภายใต้ข้อกำหนดของใบอนุญาต Apache 2.0 ในทางกลับกันคุณอาจต้องการติดต่อฉันเพื่อขอคำปรึกษาและ/หรือความร่วมมือในโครงการพูดและ/หรือ NLP ตามที่อยู่อีเมลที่แสดงในโปรไฟล์ของฉัน