Download do tacotron2 - tacotron2 Download de código fonte

tacotron2

Código-Fonte de IA

1.0.0

Baixar

TTS multispicoer e emocional baseado no Tacotron 2 e Waveglow

Índice

Descrição geral
FEITO
PENDÊNCIA
Começando
- Requisitos
- Configurar
Descrição da estrutura do código
Pré -processamento de dados
- Preparando -se para o pré -processamento de dados
- Execute o pré -processamento
Treinamento
- Preparando -se para o treinamento
- Tacotron 2
- Waveglow
Executando o Tensorboard
Inferência
Parâmetros
- Parâmetros compartilhados
- Parâmetros de áudio/STFT compartilhados
- Parâmetros de Glow Wave
- Parâmetros do tacotron
Contribuindo

Descrição geral

Este repositório contém um código de amostra para o Tacotron 2, Waveglow com incorporações de emoções multi-falantes, juntamente com um script para pré-processamento de dados.
Pontos de verificação e código são originários das seguintes fontes:

Exemplos de aprendizado profundo da NVIDIA
Nvidia Tacotron 2
Nvidia Waveglow
Torch Hub Waveglow
Torch Hub Tacotron 2

Feito:

PENDÊNCIA:

Faça funcionar com Pytorch-1.4.0
Adicione treinamento de instância de vários pontos para a AWS

Começando

A seção a seguir lista os requisitos para começar a treinar os modelos Tacotron 2 e Waveglow.

Clone o repositório:

git clone https://github.com/ide8/tacotron2  
cd tacotron2
PROJDIR= $( pwd )
export PYTHONPATH= $PROJDIR : $PYTHONPATH

Requisitos

Este repositório contém o DockerFile, que estende o contêiner Pytorch NGC e encapsula algumas dependências. Além dessas dependências, verifique se você possui os seguintes componentes:

Nvidia Docker
Pytorch 19.06-PY3+ NGC Container ou mais recente
Nvidia Volta ou GPU baseada em Turing

Configurar

Crie uma imagem a partir do arquivo do docker:

docker build --tag taco .

Run Docker Container:

docker run --shm-size=8G --runtime=nvidia -v /absolute/path/to/your/code:/app -v /absolute/path/to/your/training_data:/mnt/train -v /absolute/path/to/your/logs:/mnt/logs -v /absolute/path/to/your/raw-data:/mnt/raw-data -v /absolute/path/to/your/pretrained-checkpoint:/mnt/pretrained -detach taco sleep inf

Verifique o ID do contêiner:

docker ps

Selecione ID de contêiner de imagem com tag taco e faça login no contêiner com:

 docker exec -it container_id bash

Descrição da estrutura do código

Pastas tacotron2 e waveglow têm scripts para o Tacotron 2, modelos Waveglow e consistem em:

<model_name>/model.py - arquitetura de modelo
<model_name>/data_function.py - Funções de carregamento de dados
<model_name>/loss_function.py - Função de perda

A pasta common contém camadas comuns para os modelos ( common/layers.py ), Utils ( common/utils.py ) e processamento de áudio ( common/audio_processing.py e common/stft.py ).

router de pastas é usado por script de treinamento para selecionar um modelo apropriado

No diretório raiz:

train.py - Script para treinamento de modelo
preprocess.py - executa processamento de áudio e cria conjuntos de dados de treinamento e validação
inference.ipynb - Notebook para a inferência de execução

configs de pasta contém __init__.py com todos os parâmetros necessários para treinamento e processamento de dados. configs/experiments de pastas consistem em todos os experimentos. waveglow.py e tacotron2.py são fornecidos como exemplos para o Waveglow e Tacotron 2. No treinamento de treinamento ou processamento de dados, os parâmetros são copiados do seu experimento (no nosso caso - do waveglow.py ou de tacotron2.py ) a __init__.py , do qual são usados pelo sistema.

Pré -processamento de dados

Preparando -se para o pré -processamento de dados

Para cada alto -falante, você deve ter uma pasta nomeada com o nome do alto -falante, contendo a pasta wavs e o arquivo metadata.csv com o próximo formato de linha: file_name.wav|text .
Todos os parâmetros necessários para o pré -processamento devem ser definidos em configs/experiments/waveglow.py ou em configs/experiments/tacotron2.py , na classe PreprocessingConfig .
Se você estiver executando o pré -processamento pela primeira vez, defina sinalizador start_from_preprocessed como false . preprocess.py executa o corte de arquivos de áudio para PreprocessingConfig.top_db (corta o silêncio no início e no final), aplica o comando ffmpeg para mono, fazer a mesma taxa de amostragem e taxa de bits para todos os wavs no conjunto de dados.
Ele salva uma pasta wavs com arquivos de áudio processados e arquivo de data.csv no PreprocessingConfig.output_directory com o seguinte formato: path|text|speaker_name|speaker_id|emotion|text_len|duration .
Comando de corte e FFMPEG são aplicados apenas aos alto -falantes, para os quais o flag process_audio é verdadeiro . Os palestrantes com bandeira emotion_present são falsos , são tratados como com a emoção neutral-normal .
Você não precisará de start_from_preprocessed = False quando terminar de executar o script de pré -processamento. Somente exceção no caso de novos dados brutos entram.
Depois que start_from_preprocessed for definido como true , o script carrega o arquivo data.csv (criado pelo start_from_preprocessed = False ) e forms train.txt e val.txt fora do data.csv .
Principais parâmetros PreprocessingConfig :
1. cpus - define o número de núcleos para gerador de lote
2. sr - Define a proporção de amostra para leitura e escrita de áudio
3. emo_id_map - DICIONÁRIO PARA NOME DE EMOÇÃO TO EMOUN_ID MAPPING
4. data[{'path'}] - é o caminho para a pasta nomeada com o nome do alto -falante e contendo pasta wavs e metadata.csv com o seguinte formato de linha: file_name.wav|text|emotion (optional)
O pré -processamento de script formam conjuntos de dados de treinamento e validação da seguinte maneira:
1. Seleciona linhas com duração de áudio e comprimento do texto menos ou iguais às do alto -falante PreprocessingConfig.limit_by (esta etapa é necessária para o tamanho adequado do lote)
2. Se esse alto -falante não estiver presente, seleciona linhas no PreprocessingConfig.text_limit e PreprocessingConfig.dur_limit . O limite inferior para o áudio é definido pelo PreprocessingConfig.minimum_viable_dur
3. Para poder usar o mesmo tamanho de lote que os caras da NVIDIA, defina PreprocessingConfig.text_limit para linda_jonson
4. Dividir o conjunto de dados aleatoriamente por Ratio train : val = 0.95 : 0.05
5. Se o conjunto de trens de alto -falante for maior que PreprocessingConfig.n - amostras n linhas
6. Salve train.txt e val.txt para PreprocessingConfig.output_directory
7. Salve emotion_coefficients.json e speaker_coefficients.json com coeficientes para balanceamento de perdas (usado por train.py ).

Execute o pré -processamento

Como os scripts waveglow.py e tacotron2.py contêm o conjunto de dados PreprocessingConfig de classe, o conjunto de dados de treinamento e validação pode ser produzido executando qualquer um deles:

 python preprocess.py --exp tacotron2

ou

 python preprocess.py --exp waveglow

Treinamento

Preparando -se para o treinamento

Tacotron 2

Em configs/experiment/tacotron2.py , no conjunto Config de classe:

training_files and validation_files - Caminhos para train.txt , val.txt ;
tacotron_checkpoint - Caminho para o Tacotron 2 pré -criado se existir (fomos capazes de restaurar o Waveglow da NVIDIA, mas o código Tacotron 2 foi editado para adicionar alto -falantes e emoções, de modo que o Tacotron 2 precisa ser treinado do zero);
speaker_coefficients - PATH para speaker_coefficients.json ;
emotion_coefficients - Caminho para emotion_coefficients.json ;
output_directory - caminho para escrever logs e pontos de verificação;
use_emotions - sinalizador indicando o uso de emoções;
use_loss_coefficients - Sinalizador indicando escala de perda devido ao possível desequilíbrio de dados em termos de alto -falantes e emoções; Para equilibrar a perda, defina caminhos para JSONs com coeficientes em emotion_coefficients e speaker_coefficients ;
model_name - "Tacotron2" .

Lançar o treinamento

GPU único:
```
 python train.py --exp tacotron2
```

Treinamento multigpu:

 python -m multiproc train.py --exp tacotron2

Waveglow:

Em configs/experiment/waveglow.py , no conjunto Config de classe:

training_files and validation_files - Caminhos para train.txt , val.txt ;
waveglow_checkpoint - caminho para o Waveglow pré -criado, restaurado da NVIDIA. Faça o download do ponto de verificação.
output_directory - caminho para escrever logs e pontos de verificação;
use_emotions - false ;
use_loss_coefficients - false ;
model_name - "WaveGlow" .

Lançar o treinamento

GPU único:
```
 python train.py --exp waveglow
```

Treinamento multigpu:

 python -m multiproc train.py --exp waveglow

Executando o Tensorboard

Depois de fazer seu modelo começar a treinar, convém ver algum progresso do treinamento:

 docker ps

Selecione ID de contêiner da imagem com tag taco e execute:

 docker exec -it container_id bash

Iniciar o Tensorboard:

 tensorboard --logdir=path_to_folder_with_logs --host=0.0.0.0

A perda está sendo gravada em Tensorboard:

Escalares em tensorboard

As amostras de áudio, juntamente com os alinhamentos de atenção, são salvas em tensorbaord cada Config.epochs_per_checkpoint . As transcrições para áudios estão listadas em Config.phrases

Áudio de Tensorboard

Inferência

Execução de inferência no notebook inference.ipynb .

Run Jupyter Notebook:

 jupyter notebook --ip 0.0.0.0 --port 6006 --no-browser --allow-root

saída:

 root@04096a19c266:/app# jupyter notebook --ip 0.0.0.0 --port 6006 --no-browser --allow-root
[I 09:31:25.393 NotebookApp] JupyterLab extension loaded from /opt/conda/lib/python3.6/site-packages/jupyterlab
[I 09:31:25.393 NotebookApp] JupyterLab application directory is /opt/conda/share/jupyter/lab
[I 09:31:25.395 NotebookApp] Serving notebooks from local directory: /app
[I 09:31:25.395 NotebookApp] The Jupyter Notebook is running at:
[I 09:31:25.395 NotebookApp] http://(04096a19c266 or 127.0.0.1):6006/?token=bbd413aef225c1394be3b9de144242075e651bea937eecce
[I 09:31:25.395 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
[C 09:31:25.398 NotebookApp] 
    
    To access the notebook, open this file in a browser:
        file:///root/.local/share/jupyter/runtime/nbserver-15398-open.html
    Or copy and paste one of these URLs:
        http://(04096a19c266 or 127.0.0.1):6006/?token=bbd413aef225c1394be3b9de144242075e651bea937eecce

Selecione o endereço com 127.0.0.1 e coloque -o no navegador. Nesse caso: http://127.0.0.1:6006/?token=bbd413aef225c1394be3b9de144242075e651bea937eecce

Este script pega o texto como entrada e executa o Tacotron 2 e, em seguida, a inferência de waveglow para produzir um arquivo de áudio. Requer pontos de verificação pré-treinados dos modelos Tacotron 2 e Waveglow, texto de entrada, Speaker_id e Emotion_id.

Altere os caminhos para os pontos de verificação do tacotron 2 pré -terenciado e o globo da onda na célula [2] da inference.ipynb .
Escreva um texto a ser exibido na célula [7] da inference.ipynb .

Parâmetros

Nesta seção, listamos os hiperparâmetros mais importantes, juntamente com seus valores padrão que são usados para treinar os modelos Tacotron 2 e Wave Glow.

Parâmetros compartilhados

epochs - Número de épocas (Tacotron 2: 1501, Waveglow: 1001)
learning-rate -Taxa de aprendizagem (Tacotron 2: 1e-3, Waveglow: 1e-4)
batch-size - tamanho do lote (Tacotron 2: 64, Waveglow: 11)
grad_clip_thresh - recorte de gradiente (0,1)

Parâmetros de áudio/STFT compartilhados

sampling-rate - Taxa de amostragem em Hz de áudio de entrada e saída (22050)
filter-length - (1024)
hop-length - comprimento do salto para fft, ou seja, passo de amostra entre FFTs consecutivos (256)
win-length - Tamanho da janela para FFT (1024)
mel-fmin - Frequência mais baixa em Hz (0,0)
mel-fmax - Frequência mais alta em Hz (8.000)

Parâmetros do tacotron

anneal-steps - épocas para recozinhar a taxa de aprendizagem (500/1000/1500)
anneal-factor -fator pelo qual recozinhar a taxa de aprendizagem (0,1) Esses dois parâmetros são usados para alterar a taxa de aprendizado nos pontos definidos nas anneal-steps de acordo com:
learning_rate = learning_rate * ( anneal_factor ** p)
onde p = 0 na primeira etapa e incrementos em 1 cada etapa.

Parâmetros de Glow Wave

segment-length - comprimento do segmento do áudio de entrada processado pela rede neural (8000). Antes de passar para a entrada, o áudio é acolchoado ou cultivado para o segment-length .
wn_config - Dicionário com parâmetros de camadas de acoplamento afim. Contém n_layers , n_chanels , kernel_size .