SC-CNN: Método de acondicionamiento de altavoz efectivo para sistemas de texto a voz múltiple de disparo cero
Gracias a StylesPeech y VITS, creamos nuestros códigos basados en el enlace y el enlace
- Se utiliza el conjunto de datos VCTK.
- La velocidad de muestreo se establece en 22050Hz.
- Esta es la implementación de
SC-TransferTTS
Materiales
- Página de demostración
- Papel
Requisitos previos
- Clon este repositorio.
- Instale los requisitos de Python. Consulte requisitos.txt
- Es posible que deba instalar Espeak primero:
apt-get install espeak
- Descargar conjuntos de datos
- Descargue y extraiga el conjunto de datos VCTK y los archivos WAV de muestra a 22050 Hz. Luego cambie el nombre o cree un enlace a la carpeta del conjunto de datos:
ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY3
- Cree búsqueda de alineación monotónica y ejecute preprocesamiento si usa sus propios conjuntos de datos.
# Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace
Entrenamiento Exmaple
python train.py -c configs/vctk_base.json -m vctk_base
Ejemplo de inferencia
Ver inferencia.ipynb