FCH TTS Download - FCH TTS Código Fonte Download

FCH TTS

Código-Fonte de IA

1.0.0

Baixar

Chinês simplificado | Inglês

Síntese de fala paralela

[TOC]

Novo progresso

2021/04/20 Mesclar o ramo de Wavegan para o ramo principal principal e exclua o ramo de Wavegan!
2021/04/13 Crie uma filial do codificador para desenvolver módulos de migração de estilo de voz!
2021/04/13 A ramificação SoftDTW suporta usando o modelo de treinamento de perda SoftDTW!
2021/04/09 ~~Filial Wavegan (excluído)~~ Fornece vocoder Melgan PWG/Melgan/Multi-Band!
2021/04/05 Suporte paralletext2mel + Melgan vocoder!
[Informações -chave] Indicadores de velocidade, amostras sintéticas, demonstrações da Web, algumas perguntas, bem -vindo a se comunicar ...

Estrutura de diretório

 .
|--- config/      # 配置文件
     |--- default.yaml
     |--- ...
|--- datasets/    # 数据处理
|--- encoder/     # 声纹编码器
     |--- voice_encoder.py
     |--- ...
|--- helpers/     # 一些辅助类
     |--- trainer.py
     |--- synthesizer.py
     |--- ...
|--- logdir/      # 训练过程保存目录
|--- losses/      # 一些损失函数
|--- models/      # 合成模型
     |--- layers.py
     |--- duration.py
     |--- parallel.py
|--- pretrained/  # 预训练模型（LJSpeech 数据集）
|--- samples/     # 合成样例
|--- utils/       # 一些通用方法
|--- vocoder/     # 声码器
     |--- melgan.py
     |--- ...
|--- wandb/       # Wandb 保存目录
|--- extract-duration.py
|--- extract-embedding.py
|--- LICENSE
|--- prepare-dataset.py  # 准备脚本
|--- README.md
|--- README_en.md
|--- requirements.txt    # 依赖文件
|--- synthesize.py       # 合成脚本
|--- train-duration.py   # 训练脚本
|--- train-parallel.py

Amostra sintética

Veja alguns exemplos sintéticos aqui.

Pré-treinamento

Alguns modelos pré-treinados são mostrados aqui.

Comece rapidamente

Etapa (1) : Clonando o repositório

$ git clone https://github.com/atomicoo/ParallelTTS.git

Etapa (2) : Instale dependências

$ conda create -n ParallelTTS python=3.7.9
$ conda activate ParallelTTS
$ pip install -r requirements.txt

Etapa (3) : pronúncia sintética

$ python synthesize.py 
  --checkpoint ./pretrained/ljspeech-parallel-epoch0100.pth 
  --melgan_checkpoint ./pretrained/ljspeech-melgan-epoch3200.pth 
  --input_texts ./samples/english/synthesize.txt 
  --outputs_dir ./outputs/

Se você deseja sintetizar o Voices em outros idiomas, precisará especificar o arquivo de configuração correspondente através --config .

Como treinar

Etapa (1) : Prepare os dados

$ python prepare-dataset.py

O arquivo de configuração pode ser especificado através de --config , e o default.yaml é para o conjunto de dados LJSpeech.

Etapa (2) : Treinando o modelo de alinhamento

$ python train-duration.py

Etapa (3) : Duração da extração

$ python extract-duration.py

--ground_truth pode ser usado para especificar se o espectro de verdade no solo é gerado usando o modelo de alinhamento.

Etapa (4) : Treinando o modelo sintético

$ python train-parallel.py

--ground_truth pode ser usado para especificar se deve usar o espectro de verdade no solo para treinamento de modelos.

Registro de treinamento

Se você usar o TensorboardX, execute o seguinte comando:

 $ tensorboard --logdir logdir/[DIR]/

O WandB (pesos e vieses) é altamente recomendado, basta adicionar a opção --enable_wandb ao comando de treinamento acima.

Conjunto de dados

LJSpeech: inglês, mulher, 22050 Hz, aproximadamente 24 horas
Librispeech: inglês, multi-falante (apenas o trem-100-100 parte), 16000 Hz, totaliza cerca de 1000 horas
JSUT: japonês, mulher, 48000 Hz, cerca de 10 horas
Biaobei: mandarim, fêmea, 48000 Hz, cerca de 12 horas
KSS: coreano, mulher, 44100 Hz, cerca de 12 horas
RULS: Russo, multi-falante (apenas áudio de alto-falante), 16000 Hz, totaliza cerca de 98 horas
TWLSpeech (não público, baixa qualidade): tibetano, mulheres (mais oradores, tom semelhante), 16000 Hz, cerca de 23 horas

Avaliação da qualidade

TODO: ser complementado

Métricas de velocidade

Velocidade de treinamento : para o conjunto de dados LJSpeech, defina o tamanho do lote como 64 e você pode treinar em uma única placa gráfica GTX 1080 de 8 GB. Após o treinamento ~ 8H (~ 300 épocas), você pode sintetizar vozes de alta qualidade.

Velocidade de síntese : os seguintes testes são realizados sob CPU @ Intel Core i7-8550U / GPU @ nvidia geForce MX150, cada segmento de áudio sintetizado é de cerca de 8 segundos (cerca de 20 palavras)

Tamanho do lote	Espec (GPU)	Áudio (GPU)	Espec (CPU)	Áudio (CPU)
1	0,042	0,218	0,100	2.004
2	0,046	0,453	0,209	3.922
4	0,053	0,863	0,407	7.897
8	0,062	2.386	0,878	14.599

Observe que nenhum teste múltiplo foi realizado para obter a média e os resultados são apenas para referência.

Algumas perguntas

Na filial do Wavegan, vocoder é retirado de Parallelwavegan. Devido a métodos incompatíveis de extração de recursos acústicos, é necessário converter. Veja aqui o código de conversão específico.
A entrada de texto do modelo mandarim seleciona a sequência pinyina, porque a sequência pinyin original de Biaobei não contém pontuação e o modelo de alinhamento não está totalmente treinado; portanto, o ritmo do discurso sintético será um pouco problemático.
O modelo coreano não treina especificamente o vocoder correspondente, mas usa vocoder de LJSpeech (também 22050 Hz), que pode afetar ligeiramente a qualidade da fala sintética.