MB iSTFT VITS with AutoVocoder

MB iSTFT VITS with AutoVocoder

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

mb-istft-vits พร้อม autovocoder

แรงจูงใจในการดำเนินการ

เริ่มต้นจาก VITS, MB-istft-vits ช่วยเพิ่มความเร็วการสังเคราะห์โดยใช้เทคนิคด้านล่าง:

กลยุทธ์การสร้างแบบคู่ขนานหลายวงโดยการย่อยสัญญาณเสียงพูดลงในสัญญาณย่อยแบนด์
กระบวนการสร้างรูปคลื่นตาม ISTFT

ขึ้นอยู่กับกรอบการทำงานที่ออกแบบมาอย่างดีนี้พื้นที่เก็บข้อมูลนี้มีวัตถุประสงค์เพื่อปรับปรุงคุณภาพเสียงและความเร็วในการอนุมานด้วย Autovocoder
repo นี้ขึ้นอยู่กับ mb-istft-vits และการปรับเปลี่ยนและการปรับปรุงที่คาดหวังอยู่ด้านล่าง:

1. แทนที่ตัวถอดรหัสที่ใช้ iTFTNET เป็นตัวถอดรหัสที่ใช้อัตโนมัติ
2. ในการดำเนินการ ISTFT ให้ใช้จริง/จินตนาการแทนส่วนประกอบเฟส/ขนาดเพื่อสร้างสเปกโตรแกรมที่ซับซ้อน เพิ่มการสูญเสียการสร้างโดเมนเวลา
3. แก้ไขตัวเข้ารหัสด้านหลังเพื่อรับ 4 ส่วนประกอบที่ซับซ้อนแทนที่จะเป็น Spectrogram เชิงเส้น

เนื่องจากธรรมชาติของ VITS นั้นเป็นแบบจำลองแฝงที่ทรงพลัง autovocoder สามารถเป็นแอปพลิเคชันที่เหมาะสมเนื่องจากสถาปัตยกรรมอัตโนมัติ นอกจากนี้ยังมีความเร็วการอนุมานที่รวดเร็วโดยสร้างรูปคลื่นโดยตรงด้วย (1024, 256, 1024) FFT/Hop/Win ขนาดโดยไม่ต้องเพิ่มโมดูล UPSMPLING (startegy หลายวงจะได้รับการดูแล)
โมเดล TTS ทั่วไปรวมถึง VITS ข้อมูลเฟสการสร้างแบบจำลองนั้นเป็นบทบาทของตัวถอดรหัส (Vocoder) ทั้งหมด ใน Mod 3. โดยการให้ข้อมูลเฟสแก่ Latents เราทดสอบว่าก่อนหน้านี้สามารถประมาณแฝงเหล่านี้ได้อย่างน่าเชื่อถือ

Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

บันทึก

เพื่อการเปรียบเทียบที่ง่ายเราไม่ได้เปลี่ยนสถาปัตยกรรมทั้งหมดของตัวเข้ารหัสหลัง แต่เราใช้เฉพาะกลุ่มที่อยู่ด้านหน้าเพื่อประมวลผลอินพุตที่แก้ไขแล้ว (4 ส่วนประกอบที่ซับซ้อน)
ในปัจจุบัน repo นี้พยายามที่จะใช้โมเดลที่ใช้ MB-istft-vits แอปพลิเคชันไปยัง MINI, MS, W/O MB อาจเป็นงานในอนาคต

คำอธิบาย (จาก mb-istft-vits)

0. พื้นฐาน: mb-istft-vits

1. สิ่งที่ต้องทำล่วงหน้า

Python> = 3.6
โคลนที่เก็บนี้
ติดตั้งข้อกำหนดของ Python โปรดดูข้อกำหนด. txt
1. คุณอาจต้องติดตั้ง espeak ก่อน: apt-get install espeak
ดาวน์โหลดชุดข้อมูล
1. ดาวน์โหลดและแยกชุดข้อมูลคำพูด LJ จากนั้นเปลี่ยนชื่อหรือสร้างลิงก์ไปยังโฟลเดอร์ชุดข้อมูล: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
สร้างการค้นหาการจัดตำแหน่งแบบ monotonic และเรียกใช้การประมวลผลล่วงหน้าหากคุณใช้ชุดข้อมูลของคุณเอง

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplace

2. การฝึกอบรม

ในกรณีของการฝึกอบรม MB-istft-vits ให้เรียกใช้สคริปต์ต่อไปนี้

python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits

หลังจากการฝึกอบรมคุณสามารถตรวจสอบการอนุมานเสียงโดยใช้การอนุมาน.ipynb

การอ้างอิง

MB-istft-vits: กระดาษ / รหัส
Autovocoder: กระดาษ / รหัส (ไม่เป็นทางการ)

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-14
ขนาด 5.02MB
มาจาก Github

แอปที่เกี่ยวข้อง

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

mb-istft-vits พร้อม autovocoder

แรงจูงใจในการดำเนินการ

บันทึก

คำอธิบาย (จาก mb-istft-vits)

0. พื้นฐาน: mb-istft-vits

1. สิ่งที่ต้องทำล่วงหน้า

2. การฝึกอบรม

การอ้างอิง

MB Lab

ติดกับดักตัวตลก

ผู้สร้าง RPG ด้วย

กับอดีตของฉัน

ข้อความกับพระเยซู

ปีนขึ้นไปด้วยรถสาลี่

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express