SC-CNN: Método eficaz de condicionamento de alto-falante para sistemas de texto para fala de vários falantes zero tiro de tiro zero
Graças ao Stylespeech e Vits, construímos nossos códigos com base em link e link
- O conjunto de dados VCTK é usado.
- A taxa de amostragem é definida como 22050Hz.
- Esta é a implementação de
SC-TransferTTS
Materiais
- Página de demonstração
- Papel
Pré -requisitos
- Clone este repositório.
- Instale os requisitos do Python. Consulte requisitos.txt
- Pode ser necessário instalar o Espeak primeiro:
apt-get install espeak
- Baixar conjuntos de dados
- Faça o download e extraia o conjunto de dados do VCTK e desça os arquivos WAV para 22050 Hz. Em seguida, renomeie ou crie um link para a pasta do conjunto de dados:
ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY3
- Crie pesquisa de alinhamento monotônico e execute o pré -processamento se você usar seus próprios conjuntos de dados.
# Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace
Treinamento Exmaple
python train.py -c configs/vctk_base.json -m vctk_base
Exemplo de inferência
Veja inference.ipynb