Download Expressive FastSpeech2 - Expressive FastSpeech2 Download do código fonte

Expressive FastSpeech2

Código-Fonte de IA

1.0.0

Baixar

Expressivo -FastSpeech2 - Implementação de Pytorch

Contribuições

Non-autoregressive Expressive TTS : Este projeto visa fornecer uma pedra angular para pesquisas e aplicações futuras sobre um TTS expressivo não autorregressivo, incluindo Emotional TTS e Conversational TTS . Para conjuntos de dados, os conjuntos de dados AI AIHUB multimodais e o banco de dados do IEMOCAP são escolhidos para coreano e inglês, respectivamente.
NOTA : Se você estiver interessado no modelo TTS TTS expressivo GST-Tacotron ou Vae-Tacotron, mas sob decodificação não autorregressiva, você também pode estar interessado em Styler [Demo, Code].
Annotated Data Processing : este projeto esclareceu como lidar com o novo conjunto de dados, mesmo com um idioma diferente, para o treinamento bem-sucedido de TTs emocionais não autorregressivos.
English and Korean TTS : Além do inglês, este projeto oferece uma visão ampla do tratamento do coreano para o TTS não autorregressivo, onde o processamento adicional de dados deve ser considerado nos recursos específicos do idioma (por exemplo, treinando o alinhador forçado a Montreal com seu próprio idioma e conjunto de dados). Por favor, procure de perto text/ .
Adopting Own Language : para aqueles que estão interessados em adaptar outros idiomas, consulte a seção "Treinamento com seu próprio conjunto de dados (idioma próprio)" da filial categórica.

Estrutura do repositório

Neste projeto, o FastSpeech2 é adaptado como uma estrutura de TTS de vários falantes não-autorregressivos básicos, por isso seria útil ler o papel e o codificar primeiro (consulte também o FastSpeech2 Branch).

Emotional TTS : os seguintes ramos contêm implementações do paradigma básico integrado pelo sintetizador de fala neural de ponta a ponta emocional.
- Ramo categórico: apenas descritores emocionais categóricos condicionados (como feliz, triste, etc.)
- Ramo contínuo: condicionando descritores emocionais contínuos (como excitação, valência etc.), além dos descritores emocionais categóricos
Conversational TTS : a seguir o ramo contém a implementação de TTS de ponta a ponta para agente de voz de ponta a ponta para agente
- Ramo de conversação: histórico de bate -papo de condicionamento

Citação

Se você deseja usar ou consultar esta implementação, cite o repositório.

@misc{lee2021expressive_fastspeech2,
  author = {Lee, Keon},
  title = {Expressive-FastSpeech2},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = { u rl{https://github.com/keonlee9420/Expressive-FastSpeech2}}
}