Download gmvae_tacotron - Unduh Kode Sumber gmvae

gmvae_tacotron

Kode Sumber AI

1.0.0

Unduh

GMVAE TACOTRON-2:

Implementasi TensorFlow tidak resmi pemodelan generatif hierarkis untuk sintesis ucapan yang dapat dikendalikan

Struktur Repositori:

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

Pohon sebelumnya menunjukkan keadaan repositori saat ini.

Langkah (0) : Dapatkan dataset Anda, di sini saya telah mengatur contoh ljspeech .
Langkah (1) : Preprocess data Anda. Ini akan memberi Anda folder pelatihan_data .
Langkah (2) : Latih model Tacotron Anda. Menghasilkan folder log-tacotron .
Langkah (3) : Sintesis/evaluasi model Tacotron. Memberikan folder Tacotron_output .

Persyaratan

Pertama, Anda harus menginstal Python 3.5 bersama dengan TensorFlow v1.6.

Selanjutnya Anda dapat menginstal persyaratan:

Pip instal -r persyaratan.txt

kalau tidak:

Pip3 instal -r persyaratan.txt

Dataset:

Repo ini diuji pada dataset LJSPEECH, yang memiliki hampir 24 jam perekaman suara aktris tunggal berlabel.

Preprocessing

Sebelum menjalankan langkah-langkah berikut, pastikan Anda berada di dalam folder Tacotron-2

CD Tacotron-2

Preprocessing kemudian dapat dimulai menggunakan:

python preprocess.py

atau

python3 preprocess.py

Dataset dapat dipilih menggunakan argumen - -Dataset . Default adalah ljspeech .

Pelatihan:

Model prediksi fitur dapat dilatih menggunakan:

python train.py --odel = 'tacotron'

atau

python3 train.py --odel = 'tacotron'

Sintesis

Ada tiga jenis sintesis spektrogram MEL untuk jaringan prediksi spektrogram (Tacotron):

Evaluasi (Sintesis tentang Kalimat Kustom). Inilah yang biasanya akan kami gunakan setelah memiliki model ujung ke ujung ke ujung.

python synthesize.py --odel = 'tacotron' --pode = 'eval' --reference_audio = 'ref_1.wav'

atau

python3 synthesize.py --odel = 'tacotron' --pode = 'eval' ---reference_audio = 'ref_1.wav'

Catatan:

Implementasi ini tidak sepenuhnya diuji untuk semua skenario tetapi pelatihan dan sintesis dengan rujukan audio berfungsi.
Meskipun hanya diuji pada sintesis tanpa GTA dan dengan mode eval .
Setelah pelatihan 250 ribu langkah dengan ukuran 32 batch pada LJSpeech, kesalahan KL menetap mendekati nol (sekitar 0,001) masih belum mendapatkan transfer dan kontrol gaya yang baik, mungkin karena model ini dilatih pada ljspeech yang bukan kumpulan data yang tidak terlalu ekspresif dan hanya memiliki dataset yang digunakan pada dataset Blizzard 2013 voice dataset 2013.
Dalam pengujian saya, saya belum mendapatkan hasil yang baik sejauh ini pada sisi transfer gaya mungkin diperlukan beberapa penyesuaian, implementasi ini dengan mudah diintegrasikan dengan wavenet serta WaveRNN .
Jangan ragu untuk menyarankan beberapa perubahan atau bahkan meningkatkan PR.