download dc_tts - dc_tts download de código fonte

dc_tts

Código-Fonte de IA

1.0.0

Baixar

Uma implementação do TensorFlow de DC-TTS: mais um modelo de texto em fala

Implementei outro modelo de texto para fala, o DC-TTS, introduzido em um sistema de texto para fala com eficientemente treinável, com base em redes convolucionais profundas com atenção guiada. Meu objetivo, no entanto, não é apenas replicar o papel. Em vez disso, gostaria de obter idéias sobre vários projetos de som.

Requisitos

Numpy> = 1.11.1
Tensorflow> = 1.3 (Observe que a API de tf.contrib.layers.layer_norm mudou desde 1.3)
Librosa
TQDM
matplotlib
Scipy

Dados

Treino modelos em inglês e um modelo coreano em quatro conjuntos de dados de fala diferentes.

1. LJ DataSet de fala
2. Audiobooks do Nick Offerman
3. Audiobook de Kate Winslet
4. DATASET KSS

O conjunto de dados de fala do LJ é recentemente amplamente utilizado como um conjunto de dados de referência na tarefa TTS porque está disponível ao público e possui 24 horas de amostras de qualidade razoável. Os audiolivros de Nick e Kate também são usados para ver se o modelo pode aprender mesmo com menos dados, amostras de fala variáveis. Eles têm 18 horas e 5 horas, respectivamente. Finalmente, o KSS DataSet é um conjunto de dados de discurso de falante único coreano que dura mais de 12 horas.

Treinamento

Etapa 0. Faça o download do conjunto de dados de discurso LJ ou prepare seus próprios dados.
Etapa 1. Ajuste os parâmetros hiper em hyperparams.py . (Se você quiser fazer pré -processamento, defina o pré -prove true`.
Etapa 2. Execute python train.py 1 para treinamento text2mel. (Se você definir o Prepro true, execute o python prepro.py primeiro)
Etapa 3. Execute python train.py 2 para o treinamento de ssrn.

Você pode fazer as etapas 2 e 3 ao mesmo tempo, se tiver mais de um cartão GPU.

Curvas de treinamento

Enredo de atenção

Síntese de amostra

Eu gero amostras de fala com base nas frases de Harvard como o artigo original. Já está incluído no repo.

Execute synthesize.py e verifique os arquivos nas samples .

Amostras geradas

Conjunto de dados	Amostras
LJ	50k 200k 310k 800k
Nick	40k 170k 300k 800k
Kate	40k 160k 300k 800k
KSS	400K

Modelo pré -terenciado para LJ

Baixe isso.

Notas

O artigo não mencionou a normalização, mas sem a normalização, eu não conseguia fazer funcionar. Então eu adicionei normalização da camada.
O artigo fixou a taxa de aprendizado para 0,001, mas não funcionou para mim. Então eu determinei isso.
Tentei treinar Text2mel e SSRN simultaneamente, mas não funcionou. Eu acho que separar essas duas redes atenua o ônus do treinamento.
Os autores alegaram que o modelo pode ser treinado dentro de um dia, mas infelizmente a sorte não era minha. No entanto, obviamente, isso é muito fater que o Tacotron, pois usa apenas camadas de convolução.
Graças à atenção guiada, o enredo da atenção parece monotônico quase desde o início. Eu acho que isso parece manter o aligmento com força, para que não perca a pista.
O artigo não mencionou desistências. Eu os apliquei, pois acredito que ajuda a regularização.
Verifique também outros modelos TTS, como Tacotron e Deep Voice 3.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-23
tamanho 3.08MB
Vindo de Github

Aplicativos Relacionados

F5 TTS ComfyUI

2024-11-02
Jogo DC Legião das Trevas

2024-04-29
Jogo para celular DC Legion of Darkness

2024-04-27
DC Exército das Trevas

2023-07-17
DC Exército das Trevas

2023-07-17
Versão King of Fighters 98dc

2023-04-21

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos