Ini adalah implementasi TensorFlow dari Deep Voice 3: 2000-speaker neural text-to-speech. Untuk saat ini, kami hanya fokus pada sintesis speaker tunggal.
Dataset Pidato LJ
Unduh dan unzip dataset LJ Speech. Berlari:
python prepro.py
CATATAN: Pastikan kami telah membuka ritsleting dataset ke foler prepro.py yang sama.
Setelah ini, kami akan mendapatkan tiga folder baru:
├── dones [New]
├── mags [New]
├── mels [New]
├── metadata.csv
├── README
└── wavs
Data pelatihan dimuat dari ./LJSpeech-1.0/metadata.csv , ./LJSpeech-1.0/mels , ./LJSpeech-1.0/dones , ./LJSpeech-1.0/mags sebagai default. Jika kami ingin mengubah jalur pemuatan, kami dapat mengubah konfigurasi di class Hyperparams .
Untuk melatih model, kami menggunakan perintah ini:
python train.py
Saat ini, kami tidak bisa mendapatkan hasil yang baik. Namun, kami masih menyediakan model pra-terlatih kami jika seseorang tertarik padanya.
Model pra-terlatih.
Angka perhatiannya adalah sebagai berikut:
Semua angka perhatian yang dihasilkan pada pelatihan termasuk dalam file zip model pra-terlatih.
Sebagian besar kode dipinjam dari Kyubyong/DeepVoice3.