Unduh Comprehensive E2E TTS - Unduh Kode Sumber Comprehensive E2E TTS

Comprehensive E2E TTS

Kode Sumber AI

1.0.0

Unduh

Komprehensif-E2E-TTS-Implementasi Pytorch

Teks ke ujung ke ujung non-ke-end -end (menghasilkan bentuk gelombang yang diberikan teks), mendukung keluarga SOTA model durasi tanpa pengawasan. Proyek ini tumbuh dengan komunitas penelitian, yang bertujuan untuk mencapai E2E-TTS terbaik . Saran apa pun menuju TTS end-to-end terbaik diterima :)

Desain Arsitektur

WAVTHUVEC: Representasi Bicara Laten sebagai Fitur Menengah untuk Sintesis Bicara Saraf (Siuzdak et al., 2022)
Jets: Secara bersama-sama melatih FastSpeech2 dan Hifi-Gan untuk Teks Akhir ke End untuk berbicara (Lim et al., 2022)

Encoder linguistik

Fastspeech 2: Teks ujung ke ujung berkualitas tinggi dan berkualitas tinggi (Ren et al., 2020)

Audio Upsampler

HiFi ++: Kerangka kerja terpadu untuk vocoding saraf, ekstensi bandwidth dan peningkatan bicara (Andreev et al., 2022)
HIFI-GAN: Jaringan permusuhan generatif untuk sintesis ucapan kesetiaan yang efisien dan tinggi (Kong et al., 2020)

Pemodelan durasi

Pemodelan durasi yang dapat dibedakan untuk teks-ke-end-end-speech (Nguyen et al., 2022)
One TTS Alignment untuk memerintah semuanya (Badlani et al., 2021)

QuickStart

Dataset mengacu pada nama dataset seperti LJSpeech dan VCTK dalam dokumen berikut.

Dependensi

Anda dapat menginstal dependensi Python dengan

 pip3 install -r requirements.txt

Juga, Dockerfile disediakan untuk pengguna Docker .

Kesimpulan

Anda harus mengunduh model pretrained (akan segera dibagikan) dan memasukkannya ke dalam output/ckpt/DATASET/ .

Untuk TTS penutur tunggal , jalankan

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Untuk TTS multi-speaker , jalankan

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

Kamus speaker yang dipelajari dapat ditemukan di preprocessed_data/DATASET/speakers.json , dan ucapan yang dihasilkan akan dimasukkan ke dalam output/result/ .

Inferensi Batch

Inferensi batch juga didukung, coba

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Untuk mensintesis semua ucapan di preprocessed_data/DATASET/val.txt .

Kemampuan kontrol

Laju pitch/volume/berbicara dari ucapan yang disintesis dapat dikontrol dengan menentukan rasio pitch/energi/durasi yang diinginkan. Misalnya, seseorang dapat meningkatkan tingkat berbicara sebesar 20 % dan mengurangi volume sebesar 20 % dengan

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Tambahkan -speaker_id speaker_id untuk TTS multi-speaker.

Pelatihan

Kumpulan data

Dataset yang didukung adalah

LJSPEECH: Dataset bahasa Inggris speaker tunggal terdiri dari 13100 klip audio pendek dari pembicara pembicara wanita bagian dari 7 buku non-fiksi, total sekitar 24 jam.
VCTK: CSTRK VCTK Corpus mencakup data pidato yang diucapkan oleh 110 penutur bahasa Inggris ( multi-speaker TTS ) dengan berbagai aksen. Setiap pembicara membacakan sekitar 400 kalimat, yang dipilih dari koran, jalur pelangi dan paragraf elisitasi yang digunakan untuk arsip aksen pidato.

Dataset TTS speaker tunggal (misalnya, Blizzard Challenge 2013) dan dataset TTS multi-speaker (misalnya, Libitts) dapat ditambahkan mengikuti LJSpeech dan VCTK, masing-masing. Selain itu, bahasa dan dataset Anda sendiri dapat diadaptasi di sini.

Preprocessing

Untuk TTS multi-speaker dengan embedder speaker eksternal, unduh rescnn softmax+triplet pretrained model Deepspeaker Philipperemy untuk penyematan speaker dan temukan di ./deepspeaker/pretrained_models/ .

Jalankan skrip preprocessing oleh

 python3 preprocess.py --dataset DATASET

Pelatihan

Latih model Anda dengan

 python3 train.py --dataset DATASET

Opsi yang berguna:

Pelatih mengasumsikan pelatihan multi-GPU simpul tunggal. Untuk menggunakan GPU tertentu, tentukan CUDA_VISIBLE_DEVICES=<GPU_IDs> di awal perintah di atas.

Tensorboard

Menggunakan

 tensorboard --logdir output/log

untuk melayani Tensorboard di Localhost Anda.

Catatan

Dua opsi untuk penyematan untuk pengaturan TTS multi-speaker : pelatihan pembicara pembicara dari awal atau menggunakan model Deepspeaker Philipperemy yang sudah terlatih (seperti yang dilakukan Styler). Anda dapat mengubahnya dengan mengatur konfigurasi (antara 'none' dan 'DeepSpeaker' ).
Deepspeaker pada dataset VCTK menunjukkan identifikasi yang jelas di antara pembicara. Gambar berikut menunjukkan plot T-SNE dari embedding speaker yang diekstraksi.