Pembungkus GUI untuk disintesis. Memungkinkan sintesis khusus CPU melalui sakelar yang dapat diaktifkan. File EXE portabel tersedia (yang hanya berjalan pada CPU).
Juga memainkan peringatan donasi TTS dari elemen aliran.
| UI utama | Integrasi Elemen Stream |
|---|---|
Program Teks Berbasis Pembelajaran Mesin ke Program Bicara dengan GUI yang ramah pengguna. Target audiens termasuk streamer Twitch atau pembuat konten yang mencari program TTS open source. Tujuan dari perangkat lunak ini adalah untuk membuat sintesis TTS dapat diakses secara offline (tidak ada pengalaman pengkodean, GPU/COLAB) di EXE portabel.
Eksekusi portabel dapat ditemukan di halaman rilis, atau langsung di sini. Unduh model Tacotron 2 dan Waveglow pretrained dari bawah.
PERINGATAN: Portable Executable berjalan pada CPU yang mengarah ke perlambatan kecepatan> 10x dibandingkan dengan menjalankannya di GPU.
Pytorch 1.0
python gui.py
Implementasi PyTorch dari sintesis TTS alami dengan mengondisikan Wavenet pada prediksi spektrogram MEL.
Implementasi ini mencakup dukungan presisi campuran yang didistribusikan dan otomatis dan menggunakan dataset LJSPEECH.
Dukungan presisi campuran yang didistribusikan dan otomatis bergantung pada puncak dan amp NVIDIA.
Kunjungi situs web kami untuk sampel audio menggunakan model Tacotron 2 dan Waveglow yang diterbitkan.

git clone https://github.com/NVIDIA/tacotron2.gitcd tacotron2git submodule init; git submodule updatesed -i -- 's,DUMMY,ljs_dataset_folder/wavs,g' filelists/*.txtload_mel_from_disk=True di hparams.py dan perbarui jalur Mel-Spectrogrampip install -r requirements.txt python train.py --output_directory=outdir --log_directory=logdirtensorboard --logdir=outdir/logdir Pelatihan Menggunakan model pra-terlatih dapat menyebabkan konvergensi yang lebih cepat secara default, lapisan embedding teks yang bergantung pada dataset diabaikan
python train.py --output_directory=outdir --log_directory=logdir -c tacotron2_statedict.pt --warm_start python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True jupyter notebook --ip=127.0.0.1 --port=31337NB Saat melakukan Mel-spectrogram ke sintesis audio, pastikan Tacotron 2 dan Decoder Mel dilatih pada representasi Mel-spectrogram yang sama.
Waveglow lebih cepat dari jaringan generatif berbasis aliran waktu nyata untuk sintesis ucapan
NV-Wavenet lebih cepat dari Wavenet waktu nyata.
Implementasi ini menggunakan kode dari repo berikut: Keith Ito, Prem Seetharaman seperti yang dijelaskan dalam kode kami.
Kami terinspirasi oleh implementasi Tacotron Pytorch Ryuchi Yamamoto.
Kami berterima kasih kepada penulis kertas Tacotron 2, khususnya Jonathan Shen, Yuxuan Wang dan Zongheng Yang.