Grad TTS Chinese Download - Grad TTS Chinese Source Code Download

Grad TTS Chinese

Kode Sumber AI

release grad-tts-cfm

Unduh

Huawei Grad-TTS untuk Cina, Bert Terintegrasi dan Bigvgan

Proyek algoritma TTS untuk belajar memiliki kecepatan penalaran yang lambat, tetapi difusi adalah tren besar

grad_tts

BERT_GRAD_TTS Kerangka Lulusan-TTS-CFM

Diuji dengan model terlatih

Unduh model vokoder bigvgan_base_24khz_100band dari nvidia/bigvgan
Masukkan g_05000000 di ./bigvgan_praTrain/g_0500000
Unduh Bert Prosody_Model dari ExecutedOne/China-FastSpeech2
Ganti nama terbaik_model.pt ke prosody_model.pt dan masukkan ke dalam ./bert/prosody_model.pt
Unduh model TTS dari halaman rilis grad_tts.pt dari halaman rilis
Letakkan grad_tts.pt di direktori saat ini, atau di mana saja
Ketergantungan Lingkungan Instalasi
Pip instal -r persyaratan.txt
cd ./grad/monotonic_align
python setup.py build_ext - -di tempat
CD -
Tes inferensi
python inference.py --file test.txt --checkpoint grad_tts.pts.pts.Timesteps 10 -Temperature 1.015
Hasilkan audio di ./inference_out
Semakin besar timesteps , semakin baik efeknya, semakin lama waktu penalaran; Saat diatur ke 0, difusi akan dilewati dan spektrum MEL yang dihasilkan oleh FrameCoder akan menjadi output.
temperature menentukan jumlah kebisingan yang ditambahkan oleh penalaran difusi, dan perlu men -debug nilai terbaik.

Data standar

Unduh Tautan Resmi Data Biaobei: https://www.data-baker.com/data/index/tntts/
Masukkan Waves di ./data/waves
Letakkan 000001-010000.txt di ./data/000001-010000.txt
Resampling ke 24kHz, karena model Bigvgan 24K digunakan
Python Tools/Preprocess_a.py -w ./data/wave/ -o ./data/wavs -s 24000
Ekstrak spektrum MEL dan ganti vocoder, Anda perlu memperhatikan parameter Mel yang ditulis dalam kode.
Python Tools/Preprocess_m.py -Wav Data/WAVS/ - -Out Data/MELS/
Ekstrak vektor pengucapan Bert dan hasilkan file indeks pelatihan train.txt dan valid.txt pada saat yang sama
Python Tools/Preprocess_b.py
Output mencakup data/berts/ dan data/files
CATATAN: Informasi pencetakan adalah untuk menghapus儿化音(proyek ini merupakan demonstrasi algoritma dan tidak melakukan produksi)

Instruksi tambahan

Label asli

 000001	卡尔普#2陪外孙#1玩滑梯#4。
	ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1
000002	假语村言#2别再#1拥抱我#4。
	jia2 yu3 cun1 yan2 bie2 zai4 yong1 bao4 wo3

Perlu ditandai karena Bert membutuhkan karakter Cina卡尔普陪外孙玩滑梯。 (termasuk tanda baca), TTS membutuhkan vokal terakhir sil k a2 ^ er2 p u3 p ei2 ^ uai4 s uen1 ^ uan2 h ua2 t i1 sp sil

 000001	卡尔普陪外孙玩滑梯。
	ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1
	sil k a2 ^ er2 p u3 p ei2 ^ uai4 s uen1 ^ uan2 h ua2 t i1 sp sil
000002	假语村言别再拥抱我。
	jia2 yu3 cun1 yan2 bie2 zai4 yong1 bao4 wo3
	sil j ia2 ^ v3 c uen1 ^ ian2 b ie2 z ai4 ^ iong1 b ao4 ^ uo3 sp sil

Label pelatihan

 ./data/wavs/000001.wav|./data/mels/000001.pt|./data/berts/000001.npy|sil k a2 ^ er2 p u3 p ei2 ^ uai4 s uen1 ^ uan2 h ua2 t i1 sp sil
./data/wavs/000002.wav|./data/mels/000002.pt|./data/berts/000002.npy|sil j ia2 ^ v3 c uen1 ^ ian2 b ie2 z ai4 ^ iong1 b ao4 ^ uo3 sp sil

Kalimat ini akan membuat kesalahan

 002365	这图#2难不成#2是#1Ｐ过的#4？
	zhe4 tu2 nan2 bu4 cheng2 shi4 P IY1 guo4 de5

kereta

DEBUG Dataset
Python Tools/Preprocess_d.py
Mulai pelatihan
python train.py
Pelatihan Pemulihan
python train.py -p log/new_exp/grad_tts _ ***. pt

pemikiran

python inference.py --file test.txt --checkpoint ./logs/new_exp/grad_tts_***.pt --Timesteps 20 - -Temperature 1.15

Kehilangan

grad_tts_loss

Proyek ini didasarkan pada proyek berikut

https://github.com/huawei-noah/speech-backbones/blob/main/grad-tts

https://github.com/shivammehta25/matcha-tts

https://github.com/thuhcsi/lightgrad

https://github.com/executedone/chinese-fastspeech2

https://github.com/playvoice/vits_chinese

https://github.com/nvidia/bigvgan

Informasi Resmi Grad-TTS

Implementasi resmi model Grad-TTS berdasarkan pemodelan probabilistik difusi. Untuk semua detail, lihat makalah kami yang diterima di ICML 2021 melalui tautan ini.

Penulis : Vadim Popov*, Ivan Vovk*, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov.

^{*Kontribusi yang sama.}

Abstrak

Halaman demo dengan abstrak bersuara: tautan.

Baru -baru ini, model probabilistik difusi denoising dan pencocokan skor umum telah menunjukkan potensi tinggi dalam pemodelan distribusi data kompleks sementara perhitungan stokastik telah memberikan sudut pandang terpadu pada teknik -teknik ini yang memungkinkan skema inferensi yang fleksibel. Dalam makalah ini kami memperkenalkan Grad-TTS, model teks-ke-speech baru dengan dekoder berbasis skor yang menghasilkan Mel-spectrograms dengan secara bertahap mengubah noise yang diprediksi oleh encoder dan disejajarkan dengan input teks dengan menggunakan pencarian penyelarasan monotonik. Kerangka kerja persamaan diferensial stokastik membantu kita untuk menggeneralisasi model probabilitas perbedaan konvensional untuk kasus merekonstruksi data dari noise dengan parameter yang berbeda dan memungkinkan untuk membuat rekonstruksi ini fleksibel dengan secara eksplisit mengendalikan pertukaran antara kualitas suara dan kecepatan inferensi. Evaluasi manusia subyektif menunjukkan bahwa Grad-TTS kompetitif dengan pendekatan teks-ke-ucapan canggih dalam hal skor opini rata-rata.

Referensi

Model HiFi-Gan digunakan sebagai Vocoder, Repositori GitHub Resmi: Tautan.
Algoritma Pencarian Pencarian Monotonik digunakan untuk pemodelan durasi tanpa pengawasan, repositori GitHub resmi: tautan.
Fonemisasi menggunakan cmudict, repositori gitub resmi: tautan.

Informasi Resmi Bigvgan

Bigvgan: Vocoder saraf universal dengan pelatihan skala besar

Sang-Gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon

Tautan Proyek: https://github.com/nvidia/bigvgan

Tes infer

Unduh model pretrain bigvgan_base_24khz_100band

python bigvgan/inference.py 
--input_wavs_dir bigvgan_debug 
--output_dir bigvgan_out

Berlatih dengan Baker

Python bigvgan/train.py --config Bigvgan_pretrain/config.json

Referensi

HIFI-GAN (untuk Diskriminator Generator dan Multi-Periode)
Ular (untuk aktivasi berkala)
Alias-Free-Torch (untuk anti-aliasing)
Julius (untuk filter low-pass)
Univnet (untuk Diskriminator Multi-Resolusi)

Memperluas

Informasi Tambahan

Versi release grad-tts-cfm
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-22
ukuran 639.22KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Game DOS Cina (game DOS Cina di browser) memproyeksikan kode sumber versi resmi

2022-11-01
Informasi bahasa Inggris tentang pengembangan suara (Panduan Pengguna TTS versi Delphi)

2009-05-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua