Unduh AdaSpeech - Unduh Kode Sumber AdaSpeech

AdaSpeech

Kode Sumber AI

1.0.0

Unduh

Adaspeech: Teks Adaptif ke Pidato untuk Suara Kustom [WIP]

Implementasi Pytorch tidak resmi dari Adaspeech.

Catatan:

Saya tidak mempertimbangkan kasus penggunaan multi-speaker, saya jauh lebih fokus pada pembicara tunggal.
Saya hanya akan menggunakan Utterance level encoder dan Phoneme level encoder bukan kondisi norma lapisan (yang merupakan jiwa dari kertas adaspeech), itu definely membatasi sifat adaptif adaspeech tetapi fokus saya adalah untuk meningkatkan generalisasi akustik fastspeech 2 daripada adaptasi.

Kutipan

 @misc { chen2021adaspeech ,
      title = { AdaSpeech: Adaptive Text to Speech for Custom Voice } , 
      author = { Mingjian Chen and Xu Tan and Bohan Li and Yanqing Liu and Tao Qin and Sheng Zhao and Tie-Yan Liu } ,
      year = { 2021 } ,
      eprint = { 2103.00993 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { eess.AS }
}

Persyaratan :

Semua kode yang ditulis dalam Python 3.6.2 .

Instal Pytorch

Sebelum menginstal pytorch, silakan periksa versi CUDA Anda dengan menjalankan perintah berikut: nvcc --version

 pip install torch torchvision

Dalam repo ini saya telah menggunakan pytorch 1.6.0 untuk fitur torch.bucketize yang tidak ada dalam versi Pytorch sebelumnya.

Memasang persyaratan lain:

 pip install -r requirements.txt

Untuk menggunakan Tensorboard Instal tensorboard version 1.14.0 Seperatly dengan tensorflow (1.14.0)

Untuk preprocessing:

Folder filelists berisi MFA (Motreal Force Aligner) yang diproses file dataset LJSPEECH sehingga Anda tidak perlu menyelaraskan teks dengan audio (untuk durasi ekstrak) untuk dataset LJSPEECH. Untuk dataset lain, ikuti instruksi di sini. Untuk perintah pengikut menjalankan pra-pemrosesan lainnya:

 python nvidia_preprocessing.py -d path_of_wavs

Untuk menemukan min dan max f0 dan energi

 python compute_statistics.py

Perbarui yang berikut di hparams.py oleh min dan max f0 dan energi

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

Untuk pelatihan

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

Catatan

Untuk Kloning Suara Kloning atau Teks ke End To End To End To Speech (TTS), silakan kunjungi DeepSync Technologies.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-21
ukuran 4.13MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua