vits mandarin biaobei - vits mandarin biaobei ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

vits mandarin biaobei

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

VITS: AutoEncoder แบบแปรผันตามเงื่อนไขพร้อมการเรียนรู้ที่เป็นปฏิปักษ์ต่อการพูด

Jaehyeon Kim, Jungil Kong และ Juhee Son

ในบทความล่าสุดของเราเราเสนอ VITS: Autoencoder แบบแปรผันตามเงื่อนไขพร้อมการเรียนรู้ที่เป็นปฏิปักษ์สำหรับการพูดแบบข้อความถึงการพูด

รุ่น text-to-end-to-speech (TTS) ล่าสุดหลายรุ่นที่เปิดใช้งานการฝึกอบรมขั้นตอนเดียวและการสุ่มตัวอย่างแบบขนานได้รับการเสนอ แต่คุณภาพตัวอย่างของพวกเขาไม่ตรงกับระบบ TTS สองขั้นตอน ในงานนี้เรานำเสนอวิธี TTS แบบ end-to-end แบบขนานที่สร้างเสียงที่เป็นธรรมชาติมากกว่ารุ่นสองขั้นตอนปัจจุบัน วิธีการของเราใช้การอนุมานแบบแปรผันเพิ่มขึ้นด้วยการไหลของการไหลเป็นมาตรฐานและกระบวนการฝึกอบรมที่เป็นปฏิปักษ์ซึ่งช่วยเพิ่มพลังการแสดงออกของการสร้างแบบจำลองการกำเนิด นอกจากนี้เรายังเสนอตัวทำนายระยะเวลาสุ่มเพื่อสังเคราะห์คำพูดด้วยจังหวะที่หลากหลายจากข้อความอินพุต ด้วยการสร้างแบบจำลองความไม่แน่นอนเหนือตัวแปรแฝงและตัวทำนายระยะเวลาสุ่มวิธีการของเราเป็นการแสดงออกถึงความสัมพันธ์แบบหนึ่งต่อหลาย ๆ ซึ่งสามารถพูดได้หลายวิธีด้วยเสียงและจังหวะที่แตกต่างกัน การประเมินผลของมนุษย์แบบอัตนัย (หมายถึงคะแนนความคิดเห็นหรือ MOS) ในคำพูด LJ ซึ่งเป็นชุดข้อมูลลำโพงเดียวแสดงให้เห็นว่าวิธีการของเรามีประสิทธิภาพสูงกว่าระบบ TTS ที่เปิดเผยต่อสาธารณะที่ดีที่สุดและบรรลุ MOS เทียบได้กับความจริงพื้นฐาน

เยี่ยมชมตัวอย่างของเราสำหรับตัวอย่างเสียง

นอกจากนี้เรายังให้แบบจำลองที่ผ่านการฝึกอบรม

** อัปเดตหมายเหตุ: ขอบคุณ Rishikesh (ऋषिकेश) การสาธิต TTS แบบโต้ตอบของเราพร้อมใช้งานใน Notebook Colab

เข้าร่วมการฝึกอบรม	เข้าที่การอนุมาน

สิ่งที่ต้องมีก่อน

Python> = 3.6
โคลนที่เก็บนี้
ติดตั้งข้อกำหนดของ Python โปรดดูข้อกำหนด. txt
1. คุณอาจต้องติดตั้ง espeak ก่อน: apt-get install espeak
ดาวน์โหลดชุดข้อมูล
1. ดาวน์โหลดและแยกชุดข้อมูลคำพูด LJ จากนั้นเปลี่ยนชื่อหรือสร้างลิงก์ไปยังโฟลเดอร์ชุดข้อมูล: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. สำหรับการตั้งค่า mult-speaker ดาวน์โหลดและแยกชุดข้อมูล VCTK และไฟล์ Downsample WAV เป็น 22050 Hz จากนั้นเปลี่ยนชื่อหรือสร้างลิงก์ไปยังโฟลเดอร์ชุดข้อมูล: ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
สร้างการค้นหาการจัดตำแหน่งแบบ monotonic และเรียกใช้การประมวลผลล่วงหน้าหากคุณใช้ชุดข้อมูลของคุณเอง

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

การฝึกอบรม Exmaple

 # LJ Speech
python train.py -c configs/ljs_base.json -m ljs_base

# VCTK
python train_ms.py -c configs/vctk_base.json -m vctk_base

ตัวอย่างการอนุมาน

ดู inference.ipynb

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-24
ขนาด 963.36KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
ตลก

2024-02-26

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด