Download DiffGAN TTS - DiffGAN TTS Download de código fonte

DiffGAN TTS

Código-Fonte de IA

1.0.0

Baixar

DIFFGAN -TTS - Implementação de Pytorch

Implementação de Pytorch de DiffGan-TTS: alta fidelidade e eficiente Texto-fala com Gans de difusão de denoishing

Status do repositório

Versão ingênua de diffgan-tts
Mecanismo de difusão rasa ativa: DiffGan-TTS (dois estágios)

Amostras de áudio

Amostras de áudio estão disponíveis em /demonstração.

Investir rápido

O conjunto de dados refere -se aos nomes de conjuntos de dados como LJSpeech e VCTK nos seguintes documentos.

O modelo refere -se aos tipos de modelo (escolha de ' ingênuo ', ' aux ', ' raso ').

Dependências

Você pode instalar as dependências do Python com

 pip3 install -r requirements.txt

Inferência

Você tem que baixar os modelos pré -teremam e colocá -los em

output/ckpt/DATASET_naive/ para o modelo " ingênuo ".
output/ckpt/DATASET_shallow/ para modelo ' raso '. Observe que o ponto de verificação do modelo ' raso ' contém modelos ' rasos ' e ' aux ', e esses dois modelos compartilharão todos os diretórios, exceto os resultados durante todo o processo.

Para um tts de alto-falante , execute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET

Para um TTS de vários falantes , execute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

O dicionário de alto -falantes instruídos pode ser encontrado em preprocessed_data/DATASET/speakers.json , e os enunciados gerados serão colocados em output/result/ .

Inferência em lote

A inferência em lote também é suportada, tente

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --model MODEL --restore_step RESTORE_STEP --mode batch --dataset DATASET

Para sintetizar todos os enunciados em preprocessed_data/DATASET/val.txt .

Controlabilidade

A taxa de afinação/volume/fala dos enunciados sintetizados pode ser controlada especificando as taxas desejadas de afinação/energia/duração. Por exemplo, pode -se aumentar a taxa de fala em 20 % e diminuir o volume em 20 % em

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Observe que a controlabilidade é originada no FastSpeech2 e não é um interesse vital do DiffGan-TTS.

Treinamento

Conjuntos de dados

Os conjuntos de dados suportados são

LJSPEECH: Um conjunto de dados em inglês de um único alto-falante consiste em 13100 clipes de áudio curtos de uma falante lendo passagens de 7 livros de não ficção, aproximadamente 24 horas no total.
VCTK: O CSTR VCTK Corpus inclui dados de fala proferidos por 110 falantes de inglês ( TTS de vários falantes ) com vários sotaques. Cada orador lê cerca de 400 frases, que foram selecionadas em um jornal, a passagem do arco -íris e um parágrafo de elicitação usado para o arquivo de sotaque da fala.

Pré -processamento

Para um TTS multi-falante com o orador externo incorporador, faça o download do Modelo de Pré-Priendido de Rescnn Softmax+Tripleto do Philipperemy Deepaker para o alto-falante incorporando e localize-o em ./deepspeaker/pretrained_models/ .
Correr
```
 python3 prepare_align.py --dataset DATASET
```
para alguns preparativos.
Para o alinhamento forçado, o alinhador forçado de Montreal (MFA) é usado para obter os alinhamentos entre os enunciados e as seqüências de fonemas. Alinhamentos pré-extraídos para os conjuntos de dados são fornecidos aqui. Você precisa descompactar os arquivos em preprocessed_data/DATASET/TextGrid/ . Como alternativa, você pode executar o alinhador sozinho.
Depois disso, execute o script de pré -processamento por
```
 python3 preprocess.py --dataset DATASET
```

Treinamento

Você pode treinar três tipos de modelo: ' ingênuo ', ' aux ' e ' raso '.

Treinando versão ingênua (' ingênua '):
Treine a versão ingênua com
```
 python3 train.py --model naive --dataset DATASET
```
Treinando modelo acústico básico para versão rasa (' aux '):
Para treinar a versão rasa, precisamos de um FastSpeech2 pré-treinado. O comando abaixo permitirá que você treine os módulos FastSpeech2, incluindo o decodificador auxiliar (MEL).
```
 python3 train.py --model aux --dataset DATASET
```
Treinando versão rasa (' rasa '):
Para aproveitar o FastSpeech2 pré-treinado, incluindo o decodificador auxiliar (MEL), você deve passar --restore_step com a etapa final do treinamento auxiliar do FastSpeech2 como o comando a seguir.
```
 python3 train.py --model shallow --restore_step RESTORE_STEP --dataset DATASET
```
Por exemplo, se o último ponto de verificação for salvo em 200000 etapas durante o treinamento auxiliar, você deverá definir --restore_step com 200000 . Em seguida, ele carregará e congelará o modelo AUX e continuará o treinamento sob o mecanismo de difusão rasa ativa.

Tensorboard

Usar

 tensorboard --logdir output/log/DATASET

Para servir o Tensorboard em sua localhost. As curvas de perda, os espectrogramas MEL sintetizados e os áudios são mostrados.

Difusão ingênua

Difusão superficial

Notas

Além do decodificador de difusão, o adaptador de variação também está condicionado às informações do alto -falante.
A produção incondicional e condicional do discriminador da JCU é calculada em média durante cada cálculo de perda como o vocgan.
Algumas diferenças nos dados e pré -processamento em comparação com o artigo original:
- Usando VCTK (109 alto -falantes) em vez de chinês mandarim de 228 falantes.
- Seguindo a configuração de áudio do DiffSpeech, por exemplo, a taxa de amostragem é de 22050Hz em vez de 24.000Hz.
- Além disso, seguindo a extração e modelagem de variação do DiffSpeech.
lambda_fm é fixado em um valor de Scala, pois o escalar dinamicamente escalado calculado como l_recon/l_fm torna o modelo explodido.
Duas opções para incorporar a configuração de TTS de vários falantes : Treinando o alto-falante do zero ou o uso de um modelo Deepspeaker de Philipperemy pré-treinado (como o Styler fez). Você pode alterná -lo configurando a configuração (entre 'none' e 'DeepSpeaker' ).
O DeepSpeaker no conjunto de dados VCTK mostra uma identificação clara entre os falantes. A figura a seguir mostra o gráfico de T-Sne da incorporação de alto-falante extraída.

Citação

Cite este repositório pelo "citar este repositório" da seção Sobre (canto superior direito da página principal).

Referências

Keonlee9420 DiffSinger
Keonlee9420 de Transformer-TTS
Lynnho 'DCGAN-LSGAN-WGAN-GP-DRAGAN-PYTORCH
Melgan de Seungwonpark
Modelos probabilísticos de difusão denoising
Combatendo o trilema de aprendizado generativo com Gans de difusão de denoishing
Diffsinger: Síntese de voz cantando via mecanismo de difusão superficial

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-22
tamanho 123.48MB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Informações em inglês sobre desenvolvimento de voz (TTS User Guide versão Delphi)

2009-05-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos