Tensorvox เป็นแอพพลิเคชั่นที่ออกแบบมาเพื่อเปิดใช้งานการสังเคราะห์เสียงพูดที่ใช้งานง่ายและน้ำหนักเบาในเดสก์ท็อปโดยมีวัตถุประสงค์เพื่อเพิ่มการเข้าถึงเทคโนโลยีดังกล่าว
ขับเคลื่อนโดย TensorFlowtts และโดย COQUI-TTS และ VITS มันถูกเขียนด้วย C ++/QT บริสุทธิ์โดยใช้ TensorFlow C API สำหรับการโต้ตอบกับรุ่น Tensorflow (สองคนแรก) และ libtorch สำหรับ pytorch ด้วยวิธีนี้เราสามารถทำการอนุมานได้โดยไม่ต้องติดตั้งกิกะไบต์ที่มีมูลค่าของไลบรารี Python เพียงไม่กี่ DLL
คู่มือรายละเอียดใน Google เอกสาร
หยิบสำเนาจากรีลีสแยก. ZIP และตรวจสอบโฟลเดอร์ Google Drive สำหรับรุ่นและคำแนะนำในการติดตั้ง
หากคุณสนใจที่จะใช้โมเดลของคุณเองก่อนอื่นคุณต้องฝึกอบรมแล้วส่งออก
Tensorvox รองรับรุ่นจากสาม repos:
ตัวอย่างทั้งสองนี้ควรให้คำแนะนำเพียงพอที่จะเข้าใจสิ่งที่จำเป็น หากคุณกำลังมองหาการฝึกอบรมแบบจำลองโดยเฉพาะเพื่อจุดประสงค์นี้ฉันขอแนะนำ TensorFlowtts เนื่องจากเป็นสิ่งที่ได้รับการสนับสนุนที่ดีที่สุดและเป็นสิ่งที่ใกล้เคียงที่สุดที่จะสมบูรณ์แบบสำหรับภาษาการสนับสนุนนอกกรอบมีให้สำหรับภาษาอังกฤษ (coqui และ tftts นั่นคือคุณไม่ต้องทำอะไรเลย คุณสามารถเพิ่มภาษาได้โดยไม่ต้องแก้ไขรหัสตราบใดที่ชุดฟอนิมเป็น IPA (เครียดหรือไม่ถูกตรึง), ARPA หรือ Globalphone (เปิดปัญหาและฉันจะอธิบายให้คุณฟัง)
ปัจจุบันมีเพียง Windows 10 x64 (แม้ว่าฉันจะได้ยินรายงานว่ามันทำงานบน 8.1)
ความต้องการ:
Build Primed (พร้อมห้องสมุดที่ให้ไว้ทั้งหมด):
deps อยู่ในสถานที่เดียวกับไฟล์. PRO และไฟล์ต้นฉบับหลักโปรดทราบว่าในการลองใช้งานใหม่ที่เป็นประกายของคุณคุณจะต้องดาวน์โหลดโปรแกรมตามที่อธิบายไว้ข้างต้นและแทนที่การดำเนินการในรุ่นนั้นด้วยโปรแกรมใหม่ของคุณดังนั้นคุณจึงมี DLL ทั้งหมด
TODO: เพิ่มคำแนะนำสำหรับการคอมไพล์ตั้งแต่เริ่มต้น
libtorch : https://pytorch.org/cppdocs/installing.html
tensorflow c api : https://www.tensorflow.org/install/lang_c
cppflow (tf c api -> c ++ wrapper): https://github.com/serizba/cppflow
AudioFile (สำหรับการส่งออก WAV): https://github.com/adamstark/audiofile
หน้าต่างสไตล์มืดที่ไร้เดียงสา : https://github.com/jorgen-vikinggod/qt-frameless-window-darkstyle
JSON สำหรับ C ++ ที่ทันสมัย : https://github.com/nlohmann/json
r8brain-free-src (resampling): https://github.com/avaneev/r8brain-free-src
rnnoise (เวอร์ชัน cmake, denoising output): https://github.com/almogh52/rnnoise-cmake
LOGITECH LED LED การส่องสว่าง SDK (การรวม RGB ของเมาส์): https://www.logitechg.com/en-us/innovation/developer-lab.html
qcustomplot : https://www.qcustomprot.com/index.php/introduction
libnumberText : https://github.com/numbertext/libnumbertext
คุณสามารถเปิดปัญหาได้ที่นี่หรือเข้าร่วมเซิร์ฟเวอร์ Discord และพูดคุย/ถามอะไรก็ได้ที่นั่น
สำหรับสื่อ/ใบอนุญาต/คำถามอื่น ๆ อย่างเป็นทางการส่งอีเมลนี้: [email protected]
โปรแกรมนี้ได้รับใบอนุญาต MIT แต่สำหรับโมเดลที่คุณใช้ข้อกำหนดใบอนุญาตของพวกเขาใช้ ตัวอย่างเช่นหากคุณอยู่ในเวียดนามและใช้โมเดล TensorFlowtts คุณจะต้องตรวจสอบรายละเอียดบางอย่างที่นี่