Download Parallel Tacotron2 - download Parallel Tacotron2

Parallel Tacotron2

Código-Fonte de IA

1.0.0

Baixar

Tacotron2 paralelo

Implementação de Pytorch do Tacotron Paralelo 2 do Google: um modelo TTS neural não autorregressivo com modelagem de duração diferenciável

Atualizações

2021.05.25: Only the soft-DTW remains the last hurdle! Seguindo o conselho do autor sobre a implementação, fiz vários testes em cada módulo um por um sob um sinal de duração supervisionado com perda L1 (FastSpeech2). Até agora, posso confirmar que todos os módulos, exceto o Soft-DTW, estão funcionando bem como a seguir (espectrograma sintetizado, espectrograma GT, alinhamento residual e W do amostramento de cima para baixo).
Para obter detalhes, verifique o log mais recente e a seção de problemas de implementação atualizada. Além disso, você pode encontrar os experimentos em andamento em https://github.com/keonlee9420/fastspeech2/commits/ptaco2.
2021.05.15: Implementação realizada. A sanidade verifica o treinamento e a inferência. Mas ainda assim o modelo não pode convergir.
I'm waiting for your contribution! Por favor, informe -me se você encontrar algum erro na minha implementação ou qualquer conselho valioso para treinar o modelo com sucesso. Consulte a seção de problemas de implementação.

Treinamento

Requisitos

Você pode instalar as dependências do Python com
```
pip3 install -r requirements.txt
```
Instale o Fairseq (documento oficial, GitHub) para utilizar LConvBlock . Verifique o #5 para resolver qualquer problema na instalação.

Conjuntos de dados

Os conjuntos de dados suportados:

LJSPEECH: Um conjunto de dados em inglês de um único alto-falante consiste em 13100 clipes de áudio curtos de uma falante lendo passagens de 7 livros de não ficção, aproximadamente 24 horas no total.
(será adicionado mais)

Pré -processamento

Depois de baixar os conjuntos de dados, defina o corpus_path no preprocess.yaml e execute o script de preparação:

 python3 prepare_data.py config/LJSpeech/preprocess.yaml

Em seguida, execute o script de pré -processamento:

 python3 preprocess.py config/LJSpeech/preprocess.yaml

Treinamento

Treine seu modelo com

 python3 train.py -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

O modelo ainda não pode convergir. Estou depurando, mas seria impulsionado se sua incrível contribuição estivesse pronta!

Inferência

Para uma única inferência, execute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 900000 --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Os enunciados gerados serão salvos na output/result/ .

Inferência em lote

A inferência em lote também é suportada, tente

 python3 synthesize.py --source preprocessed_data/LJSpeech/val.txt --restore_step 900000 --mode batch -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Para sintetizar todos os enunciados em preprocessed_data/LJSpeech/val.txt .

Tensorboard

Usar

 tensorboard --logdir output/log/LJSpeech

Para servir o Tensorboard em sua localhost.

Questões de implementação

No geral, a normalização ou ativação, que não é sugerida no artigo original, é adequadamente organizada para impedir o valor da NAN (gradiente) nos cálculos para a frente e para trás. (NAN indica que algo está errado na rede)

Codificador de texto

Use o FFTBlock do FastSpeech2 para o bloco de transformadores do codificador de texto.
Use o abandono 0.2 para o ConvBlock do codificador de texto.
Para restaurar o "mecanismo de normalização proprietário",
- Aplique a mesma normalização de texto que no FastSpeech2.
- Implementar grapheme_to_phoneme Função. (Veja ./Text/ init ).

Codificador residual

Use 80 channels MEL-Spectrogroma em vez de 128-bin .
A incorporação posicional sinusoidal regular é usada no nível do quadro, em vez de combinações de três incorporações posicionais em tacotron paralelo. Como o modelo depende inteiramente do aprendizado não supervisionado para a posição, essa opção pode ser um motivo para as falhas no modelo convergir.

Predictor de duração e upsampling aprendido

Use nn.SiLU() para a ativação swish.
Ao obter W e C , a operação de concatenação é aplicada entre a transmissão S , E e V após o domínio do quadro (domínio T) de V

Decodificador

Use LConvBlock e incorporação posicional sinusoidal regular.
O espectrograma de Mel iterativo é projetado por uma camada linear.
Aplique nn.Tanh() a cada saída LConvBLock (seguindo o padrão de ativação da parte do decodificador no FastSpeech2).

Perda

Use otimização e agendador do FastSpeech2 (que é de atenção é tudo o que você precisa, conforme descrito no papel original).
Base em Pytorch-SoftDTW-CUDA (POST) para o Soft-DTW.
1. Implemente o soft-dtw personalizado no model/soft_dtw_cuda.py , refletindo a recursão sugerida no papel original.
2. No Soft-DTW original, a perda final não é assumida e, portanto, apenas E é calculada. Mas empregado como uma função de perda, o produto jacobiano é adicionado para retornar o derivamento do destino da entrada R wrt X .
3. Atualmente, o tamanho máximo do lote é 8 na GPU 24GIB (Titan RTX) devido ao problema da complexidade espacial na perda de DTW soft-dtw.
  - No artigo original, uma operação de banda diagonal diferenciável personalizada foi implementada e usada para resolver a complexidade de O (t^2), mas essa parte ainda não foi explorada na implementação atual.

Citação

 @misc{lee2021parallel_tacotron2,
  author = {Lee, Keon},
  title = {Parallel-Tacotron2},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Parallel-Tacotron2}}
}

Referências

FastSpeech2 do Ming024 (depois de 2021.02.26 ver.)
Tacotron paralelo: TTS não autorregressivo e controlável
Tacotron paralelo 2: Um modelo TTS neural não autorregressivo com modelagem de duração diferenciável

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-20
tamanho 101.63MB
Vindo de Github

Aplicativos Relacionados

golang parallel download with accept ranges

2024-11-09
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos