Unduh mandarin tts - Unduh Kode Sumber mandarin tts

mandarin tts

Kode Sumber AI

1.0.0

Unduh

Teks Mandarin Cina untuk Pidato (MTTS)

Ini adalah kerangka kerja teks-ke-kebesaran yang bertujuan untuk mendukung penelitian cepat dan pengembangan produk. Fitur utama termasuk

Semua modul dapat dikonfigurasi melalui YAML,
Embedding Speaker / Prosody Embeding / Multi-Stream Text Embedding didukung dan dapat dikonfigurasi,
Berbagai vokoder (vocgan, hifi-gan, waveglow, melgan) didukung oleh adaptor sehingga perbandingan di berbagai vokoder dapat dilakukan dengan mudah,
Prediktor Durations/Pitch/Energy Variance didukung, dan varian lainnya dapat ditambahkan dengan mudah,
dan lebih banyak lagi di peta jalan.

Kontribusi dipersilakan.

Sampel audio

Lihat demo di sini misalnya

Sampel audio yang menarik untuk Aishell3 ditambahkan di sini.
Halaman GitHub juga meng -host beberapa sampel untuk dataset Biaobei dan Aishell3.

Awal yang cepat

Memasang

 git clone https://github.com/ranchlai/mandarin-tts.git
cd mandarin-tts
git submodule update --force --recursive --init --remote
pip install -e . f

Pelatihan

Dua contoh disediakan di sini: Biaobei dan Aishell3.

Untuk melatih model Anda sendiri, pertama -tama buat salinan dari contoh yang ada, lalu siapkan fitur Melelspectrogram menggunakan wav2mel.py oleh

 cd examples
python wav2mel.py -c ./aishell3/config.yaml -w < aishell3_wav_folder > -m < mel_folder > -d cpu

Siapkan file SCP yang diperlukan untuk pelatihan,

 cd examples/aishell3
python prepare.py --wav_folder < aishell3_wav_folder >  --mel_folder < mel_folder > --dst_folder ./train/

Ini akan menghasilkan file SCP yang diperlukan oleh config.yaml (di bagian dataset/kereta). Anda juga perlu memeriksa bahwa semuanya baik -baik saja di file konfigurasi. Biasanya Anda tidak perlu mengubah kode.

Sekarang Anda dapat memulai pelatihan dengan

 cd examples/aishell3
python ../../mtts/train.py -c config.yaml -d cuda

Untuk dataset Biaobei, alur kerja adalah sama, kecuali bahwa tidak ada penyematan speaker tetapi Anda dapat menambahkan embedding prosodi.

Lebih banyak contoh akan ditambahkan. Tolong tetap.

Mempersatukan

Pos pemeriksaan MTTS pretrained

Saat ini dua contoh disediakan, dan pos pemeriksaan/konfigurasi yang sesuai dirangkum sebagai berikut.

dataset	pos pemeriksaan	konfigurasi
Aishell3	link	link
Biaobei	link	link

Vokoder yang didukung

Vokoder memainkan peran mengonversi Melspectrograms menjadi bentuk gelombang. Mereka ditambahkan sebagai submodul dan akan dilatih dalam proyek ini. Karenanya Anda harus mengunduh pos pemeriksaan sebelum disintesis. Dalam pelatihan, vokoder tidak diperlukan, karena Anda dapat memantau proses pelatihan dari pengangkutan yang dihasilkan dan juga kurva kerugian. Saat ini kami mendukung vokoder berikut,

Vocoder	pos pemeriksaan	GitHub
Waveglow	link	link
Hifi-gan	link	link
Vokgan	tautan tautan	link
Melgan	link	link

Semua vocoders akan siap setelah menjalankan git submodule update --force --recursive --init --remote . Namun, Anda harus mengunduh pos pemeriksaan secara manual dan benar mengatur jalur di file config.yaml.

Mempersiapkan teks input Anda

Input.txt harus konsisten dengan pengaturan Anda dari emb_type1 ke emb_type_n dalam file config, yaitu, tipe yang sama, pesanan yang sama.

Untuk memfasilitasi transkripsi Hanzi ke Pinyin, Anda dapat mencoba:

 cd examples/aishell3/
python ../../mtts/text/gp2py.py -t "为适应新的网络传播方式和读者阅读习惯"
>> sil wei4 shi4 ying4 xin1 de5 wang3 luo4 chuan2 bo1 fang1 shi4 he2 du2 zhe3 yue4 du2 xi2 guan4 sil|sil 为 适 应 新 的 网 络 传 播 方 式 和 读 者 阅 读 习 惯 sil

Tidak Anda dapat menyalin teks ke input.txt, dan ingat untuk meletakkan nama dan ID speaker yang ditentukan sendiri, dipisahkan oleh '|'.

Mensintesis ombak Anda

Dengan pos pemeriksaan dan teks di atas, akhirnya Anda dapat menjalankan proses sintesis,

python ../../mtts/synthesize.py  -d cuda --c config.yaml --checkpoint ./checkpoints/checkpoint_1240000.pth.tar -i input.txt

Silakan periksa file config.yaml untuk pengaturan vokoder.

Jika beruntung, contoh audio dapat ditemukan di folder output.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-21
ukuran 50.36MB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Informasi bahasa Inggris tentang pengembangan suara (Panduan Pengguna TTS versi Delphi)

2009-05-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua