ข้อความการสร้างเสียงที่ใช้การดึงข้อมูลไปยังระบบพูดเป็นข้อความที่ใช้ Python เป็นคำพูดที่ต้องอาศัยสองส่วนหลัก เพื่อให้สามารถสร้างคำพูดได้มันต้องอาศัย Tacotron ในการแปลงข้อความเป็นคำพูดจากนั้นใช้การแปลงด้วยเสียง RVC เพื่อให้สามารถทำให้ฟังดูเหมือนอักขระใด ๆ โดยไม่จำเป็นต้องใช้ไฟล์เสียง
TTS นี้ได้รับการทดสอบใน Python 3.10 แม้ว่าอาจใช้งานได้กับเวอร์ชันอื่น
คุณจะต้องมีการเปิดตัว NG 64 บิตล่าสุด
ในการสร้างการพึ่งพา Fairseq คุณจะต้องมี Visual Studio และติดตั้งแพ็คเกจการพัฒนา "เดสก์ท็อปด้วย C ++"
หากต้องการใช้ให้ติดตั้งบทกวีและติดตั้งข้อกำหนดด้วย poetry install --no-root จากนั้นดาวน์โหลดโมเดลฮิวเบิร์ตโมเดล Tacotron ไปข้างหน้าและรุ่น RVC ใด ๆ จากนั้นคุณสามารถวางไว้ในโฟลเดอร์โมเดลด้วยชื่อที่เกี่ยวข้อง:
hubert_base.pt -> hubert.ptforward_steps90k.pt -> forward.pt(rvc .pth model name) -> rvc_model.pth(rvc .index model name) -> rvc_index.index (ไม่บังคับ) เมื่อคุณมีสิ่งเหล่านี้ทั้งหมดคุณสามารถเรียกใช้ไฟล์ RVG.py ด้วยอาร์กิวเมนต์ที่คุณต้องการผ่าน CLI เรียกใช้ไฟล์โดยไม่ต้องมีข้อโต้แย้งใด ๆ เพื่อเรียกใช้ gradio webui หรือคุณสามารถรวมรหัสนี้ไว้ในโครงการของคุณเองและนำเข้าฟังก์ชั่น rvg_tts จาก RVG.py
เพื่อที่จะใช้ภาษาอื่นต้องได้รับการฝึกฝนแบบจำลอง Tacotron รุ่นใหม่ นี่คือสิ่งที่ฉันไม่สามารถทำได้หากไม่มีชุดข้อมูล นี่คือที่ที่ฉันขอความช่วยเหลือจากชุมชน หากคุณสามารถให้ชุดข้อมูลได้โปรดทำ
Forward Tacotron ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT
RVC WebUI ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT
ลิขสิทธิ์ 2023 Foxify52
ได้รับใบอนุญาตภายใต้ใบอนุญาต Apache เวอร์ชัน 2.0 ("ใบอนุญาต"); คุณไม่สามารถใช้ไฟล์นี้ยกเว้นตามใบอนุญาต คุณอาจได้รับสำเนาใบอนุญาตที่
http://www.apache.org/licenses/LICENSE-2.0
เว้นแต่ว่ากฎหมายที่บังคับใช้หรือตกลงเป็นลายลักษณ์อักษรซอฟต์แวร์ที่แจกจ่ายภายใต้ใบอนุญาตจะถูกแจกจ่ายตาม "ตามพื้นฐาน" โดยไม่มีการรับประกันหรือเงื่อนไขใด ๆ ไม่ว่าจะโดยชัดแจ้งหรือโดยนัย ดูใบอนุญาตสำหรับภาษาเฉพาะที่ควบคุมการอนุญาตและข้อ จำกัด ภายใต้ใบอนุญาต