Download de End to End TTS Fine Tune End to End TTS Fine Tune

Baixar

TTS de ponta a ponta TTS TUNE

Este projeto tem como objetivo desenvolver o sistema TTS de ' AI Assistente para idosos '. Você pode criar um assistente de inteligência artificial com a voz de familiares ou amigos e amantes com apenas 5 minutos de gravação de voz.
Para lidar com o alto-falante da IA que requer geração em tempo real, adotamos o modelo acústico não autorregressivo Fastspe2 e o modelo de vocoder com sede em GaN Hifi-Gan para considerar a velocidade e a velocidade de produção.
Alfândegas adicionais foram realizadas para melhorar o desempenho de vários falantes.
Este repositório está configurado para simplesmente executar o processo de aprendizado e criação, utilizando o script do shell para configurar o Vetor Multi-alto-falante D-D-vetor FastSpeech2 e o modelo HIFI-GAN para permitir o tune fino.
Para fornecer TTS real no aplicativo, use o FASTAPI para configurar o servidor e vincular -se ao back -end.

Acoustic-FastSpeech2 (personalizado)
Desempenho razoável, utilizando o aprendizado de transferência para personalização com pequenas quantidades de dados
Forneça APIs que podem ser criadas com ajuste fino em conjuntos de dados coreanos em tempo real

De acordo com o fine_tune_transcript.txt que pertence à pasta do conjunto de dados, grave 100 frases com o número com um smartphone e converta o arquivo M4A em um arquivo WAV com uma taxa de amostragem de 16000. (FFMPEG)

Como mostrado na figura, 100 arquivos WAV convertidos são adicionados à sua pasta inicial.

Modificação do código do modelo de acordo com tune fine
- FastSpeech2 e Modificação e Integração Hifi-Gan
- O diretório de dados, CKPT e resultados do conjunto de dados são divididos no diretório de nível superior pelo conjunto de dados
Fácil pré -processamento, trem, síntese através do script de shell
- Alterando o diretório do conjunto de dados
Forneça uma imagem exclusiva do Docker
- Forneça imagens que podem ser realizadas imediatamente sem adicionar pacotes de dependência adicionais complexos
- Importar a imagem mais recente através do link do hub do docker

Ele corresponde ao nome do arquivo do FastSpeech2 e do HIFI-GAN CKPT pré-treinado e o mantém em cada modelo.
(FastSpeech2: 30.000 etapas de aprendizado / hiFi -gan -Jungtils Official do rei -universo -universo)
Para aprendizado e síntese, carregamos e executamos imagens do Docker que contêm todos os pacotes dependentes.
```
 docker pull hws0120/e2e_speech_synthesis 
```
Run_fs2_preprocessing.sh As etapas são conectadas ao Docker com um comando CONDA e instala o pacote Python JAMO.
```
 conda activate aligner
pip install jamo
```
Fim do ambiente virtual para executar run_fs2_train ou síntese.
```
 conda activate base
```