Implementasi TensorFlow tidak resmi pemodelan generatif hierarkis untuk sintesis ucapan yang dapat dikendalikan
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
Pohon sebelumnya menunjukkan keadaan repositori saat ini.
Pertama, Anda harus menginstal Python 3.5 bersama dengan TensorFlow v1.6.
Selanjutnya Anda dapat menginstal persyaratan:
Pip instal -r persyaratan.txt
kalau tidak:
Pip3 instal -r persyaratan.txt
Repo ini diuji pada dataset LJSPEECH, yang memiliki hampir 24 jam perekaman suara aktris tunggal berlabel.
Sebelum menjalankan langkah-langkah berikut, pastikan Anda berada di dalam folder Tacotron-2
CD Tacotron-2
Preprocessing kemudian dapat dimulai menggunakan:
python preprocess.py
atau
python3 preprocess.py
Dataset dapat dipilih menggunakan argumen - -Dataset . Default adalah ljspeech .
Model prediksi fitur dapat dilatih menggunakan:
python train.py --odel = 'tacotron'
atau
python3 train.py --odel = 'tacotron'
Ada tiga jenis sintesis spektrogram MEL untuk jaringan prediksi spektrogram (Tacotron):
python synthesize.py --odel = 'tacotron' --pode = 'eval' --reference_audio = 'ref_1.wav'
atau
python3 synthesize.py --odel = 'tacotron' --pode = 'eval' ---reference_audio = 'ref_1.wav'
Catatan:
eval .Blizzard 2013 voice dataset 2013.wavenet serta WaveRNN .Todo
Bekerja dalam proses