Text-to-speech (TTS) baru-baru ini melihat kemajuan besar dalam mensintesis ucapan berkualitas tinggi karena perkembangan cepat sistem TTS paralel, tetapi menghasilkan ucapan dengan variasi prosodik naturalistik, gaya berbicara dan nada emosional tetap menantang. Selain itu, karena durasi dan ucapan dihasilkan secara terpisah, model TTS paralel masih memiliki masalah menemukan keberpihakan monotonik terbaik yang sangat penting untuk sintesis bicara naturalistik. Di sini, kami mengusulkan Styletts, model generatif berbasis gaya untuk TTS paralel yang dapat mensintesis beragam pidato dengan prosodi alami dari ucapan ucapan referensi. Dengan augner monotonik baru yang dapat ditransfer (TMA) dan skema augmentasi data durasi-invarian, metode kami secara signifikan mengungguli model canggih pada dataset tunggal dan multi-speaker dalam tes subyektif dari kealamian bicara dan kesamaan pembicara. Melalui pembelajaran yang di-swadaya tentang gaya berbicara, model kami dapat mensintesis ucapan dengan nada prosodik dan emosional yang sama seperti pidato referensi yang diberikan tanpa perlu secara eksplisit memberi label kategori ini.
Kertas: https://arxiv.org/abs/2107.10394
Sampel audio: https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.gitPelatihan Tahap Pertama:
python train_first.py --config_path ./Configs/config.ymlPelatihan Tahap Kedua:
python train_second.py --config_path ./Configs/config.yml Anda dapat menjalankan keduanya secara berurutan dan akan melatih tahap pertama dan kedua. Model akan disimpan dalam format "Epoch_1st_%05d.pth" dan "Epoch_2nd_%05d.pth". Pos pemeriksaan dan log tensorboard akan disimpan di log_dir .
Format Daftar Data harus filename.wav|transcription , lihat val_list_libritts.txt sebagai contoh.
Silakan merujuk ke inferensi.ipynb untuk detailnya.
Styletts pretrained dan hifi-gan di ljspeech corpus dalam 24 kHz dapat diunduh di styletts link dan tautan hifi-gan.
Styletts pretrained dan hifi-gan di Libitts Corpus dapat diunduh di Link Styletts dan HiFi-Gan Link. Anda juga perlu mengunduh Test-Clean dari Liblitts jika Anda ingin menjalankan demo Zero-Shot.
Harap unzip untuk Models dan Vocoder masing -masing dan jalankan setiap sel di notebook. Anda juga perlu menginstal fonemizer untuk menjalankan demo inferensi ini.
Model Aligner dan Extractor Pitch Extractor pretrained disediakan di bawah folder Utils . Kedua model pelurus teks dan ekstraktor pitch dilatih dengan Melspectrograms yang diisi sebelumnya menggunakan meldataset.py.
Anda dapat mengedit meldataSet.py dengan preprocessing MeldataSting Anda sendiri, tetapi model pretrain yang disediakan tidak akan lagi berfungsi. Anda perlu melatih pelurus teks dan ekstraktor pitch Anda sendiri dengan preprocessing baru.
Kode untuk melatih model Aligner teks baru tersedia di sini dan untuk melatih model ekstraktor pitch baru tersedia di sini.
Saya akan memberikan lebih banyak recepies dengan preprocessing yang ada seperti yang ada di Hifigan dan ESPNet resmi di masa depan jika saya memiliki waktu ekstra. Jika Anda bersedia membantu, jangan ragu untuk membuat unik dengan ESPNet.