SC-CNN: Méthode de conditionnement de haut-parleur efficace pour les systèmes de texte à dispection multi-parte
Grâce à StylesPeEch et VITS, nous avons construit nos codes en fonction du lien et du lien
- L'ensemble de données VCTK est utilisé.
- Le taux d'échantillonnage est fixé à 22050Hz.
- Ceci est la mise en œuvre de
SC-TransferTTS
Matériels
- Page de démonstration
- Papier
Condition préalable
- Cloner ce référentiel.
- Installez les exigences Python. Veuillez référer les exigences.txt
- Vous devrez peut-être installer Espeak d'abord:
apt-get install espeak
- Télécharger des ensembles de données
- Téléchargez et extraire l'ensemble de données VCTK et réduisez les fichiers WAV à 22050 Hz. Puis renommer ou créer un lien vers le dossier de jeu de données:
ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY3
- Créez la recherche d'alignement monotonique et exécutez le prétraitement si vous utilisez vos propres ensembles de données.
# Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace
Formation exmaple
python train.py -c configs/vctk_base.json -m vctk_base
Exemple d'inférence
Voir inférence.Ipynb