SC-CNN: Metode pengkondisian speaker yang efektif untuk sistem teks-ke-speech multi-speaker zero-shot
Berkat Stylespeech dan Vits, kami membangun kode kami berdasarkan tautan dan tautan
- Dataset VCTK digunakan.
- Laju pengambilan sampel diatur ke 22050Hz.
- Ini adalah implementasi
SC-TransferTTS
Bahan
Prasyarat
- Kloning repositori ini.
- Pasang persyaratan Python. Silakan merujuk persyaratan.txt
- Anda mungkin perlu menginstal Espeak terlebih dahulu:
apt-get install espeak
- Unduh set data
- Unduh dan ekstrak Dataset VCTK, dan file WAV Downsample ke 22050 Hz. Kemudian ganti nama atau buat tautan ke folder dataset:
ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY3
- Bangun pencarian penyelarasan monotonik dan jalankan preprocessing jika Anda menggunakan set data Anda sendiri.
# Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace
Melatih exmaple
python train.py -c configs/vctk_base.json -m vctk_base
Contoh inferensi
Lihat inferensi.ipynb