Download Comprehensive E2E TTS - Download Comprehensive E2E TTS

Comprehensive E2E TTS

Código-Fonte de IA

1.0.0

Baixar

Comprechensive-E2e-TTS-Implementação de Pytorch

Um texto a ponta não autorregressivo de ponta a ponta (geração de texto de onda dado), apoiando uma família de modelações de duração não supervisionadas SOTA. Este projeto cresce com a comunidade de pesquisa, com o objetivo de alcançar o melhor E2E-TTS . Quaisquer sugestões para os melhores TTs de ponta a ponta são bem-vindos :)

Design de arquitetura

Wavthruvec: Representação de fala latente como características intermediárias para a síntese de fala neural (Siuzdak et al., 2022)
Jatos: treinando em conjunto FastSpeech2 e Hifi-Gan para o texto de ponta a ponta da fala (Lim et al., 2022)

Codificador linguístico

FastSpeech 2: Texto de ponta a ponta rápido e de alta qualidade para a fala (Ren et al., 2020)

AUDIO UPSAMPLER

HIFI ++: Uma estrutura unificada para vocoding neural, extensão de largura de banda e aprimoramento da fala (Andreev et al., 2022)
HIFI-GAN: Redes adversárias generativas para síntese de fala eficiente e de alta fidelidade (Kong et al., 2020)

Modelagem de duração

Modelagem de duração diferenciável para texto de ponta a ponta (Nguyen et al., 2022)
Um alinhamento TTS para governar todos eles (Badlani et al., 2021)

Investir rápido

O conjunto de dados refere -se aos nomes de conjuntos de dados como LJSpeech e VCTK nos seguintes documentos.

Dependências

Você pode instalar as dependências do Python com

 pip3 install -r requirements.txt

Além disso, Dockerfile é fornecido para usuários Docker .

Inferência

Você deve baixar os modelos pré -tenhados (será compartilhado em breve) e colocá -los em output/ckpt/DATASET/ .

Para um tts de alto-falante , execute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Para um TTS de vários falantes , execute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

O dicionário de alto -falantes instruídos pode ser encontrado em preprocessed_data/DATASET/speakers.json , e os enunciados gerados serão colocados em output/result/ .

Inferência em lote

A inferência em lote também é suportada, tente

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Para sintetizar todos os enunciados em preprocessed_data/DATASET/val.txt .

Controlabilidade

A taxa de afinação/volume/fala dos enunciados sintetizados pode ser controlada especificando as taxas desejadas de afinação/energia/duração. Por exemplo, pode -se aumentar a taxa de fala em 20 % e diminuir o volume em 20 % em

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Adicionar -speaker_id speaker_id para um TTS multi-falante.

Treinamento

Conjuntos de dados

Os conjuntos de dados suportados são

LJSPEECH: Um conjunto de dados em inglês de um único alto-falante consiste em 13100 clipes de áudio curtos de uma falante lendo passagens de 7 livros de não ficção, aproximadamente 24 horas no total.
VCTK: O CSTR VCTK Corpus inclui dados de fala proferidos por 110 falantes de inglês ( TTS de vários falantes ) com vários sotaques. Cada orador lê cerca de 400 frases, que foram selecionadas em um jornal, a passagem do arco -íris e um parágrafo de elicitação usado para o arquivo de sotaque da fala.

Qualquer um dos conjuntos de dados TTS de alto-falante (por exemplo, Blizzard Challenge 2013) e o conjunto de dados TTS de vários falantes (por exemplo, Libritts) podem ser adicionados seguindo LJSpeech e VCTK, respectivamente. Além disso, seu próprio idioma e conjunto de dados podem ser adaptados a seguir aqui.

Pré -processamento

Para um TTS multi-falante com o orador externo incorporador, faça o download do Modelo de Pré-Priendido de Rescnn Softmax+Tripleto do Philipperemy Deepaker para o alto-falante incorporando e localize-o em ./deepspeaker/pretrained_models/ .

Execute o script de pré -processamento por

 python3 preprocess.py --dataset DATASET

Treinamento

Treine seu modelo com

 python3 train.py --dataset DATASET

Opções úteis:

O treinador assume treinamento multi-GPU de um nó único. Para usar GPUs específicos, especifique CUDA_VISIBLE_DEVICES=<GPU_IDs> no início do comando acima.

Tensorboard

Usar

 tensorboard --logdir output/log

Para servir o Tensorboard em sua localhost.

Notas

Duas opções para incorporar a configuração de TTS de vários falantes : Treinando o alto-falante do zero ou o uso de um modelo Deepspeaker de Philipperemy pré-treinado (como o Styler fez). Você pode alterná -lo configurando a configuração (entre 'none' e 'DeepSpeaker' ).
O DeepSpeaker no conjunto de dados VCTK mostra uma identificação clara entre os falantes. A figura a seguir mostra o gráfico de T-Sne da incorporação de alto-falante extraída.