Download do AdaSpeech - download do código fonte AdaSpeech

AdaSpeech

Código-Fonte de IA

1.0.0

Baixar

AdasPeech: texto adaptativo à fala para voz personalizada [WIP]

Implementação não oficial de pytorch do AdasPeech.

Observação:

Não estou considerando o caso de uso de vários alto-falantes, estou muito mais foco apenas no alto-falante único.
Usarei apenas Utterance level encoder e Phoneme level encoder não a norma da camada de condição (que é a alma do papel de Adaspeech), ele restringe a natureza adaptativa da Adaspech, mas meu foco é melhorar a generalização acústica do FastSpeech 2 e não a adaptação.

Citações

 @misc { chen2021adaspeech ,
      title = { AdaSpeech: Adaptive Text to Speech for Custom Voice } , 
      author = { Mingjian Chen and Xu Tan and Bohan Li and Yanqing Liu and Tao Qin and Sheng Zhao and Tie-Yan Liu } ,
      year = { 2021 } ,
      eprint = { 2103.00993 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { eess.AS }
}

Requisitos:

Todo o código escrito no Python 3.6.2 .

Instale o pytorch

Antes de instalar o Pytorch, verifique sua versão CUDA executando o seguinte comando: nvcc --version

 pip install torch torchvision

Neste repo, usei Pytorch 1.6.0 para o recurso torch.bucketize , que não está presente nas versões anteriores do Pytorch.

Instalando outros requisitos:

 pip install -r requirements.txt

Para usar o Tensorboard Instalar tensorboard version 1.14.0 Seperatly com tensorflow (1.14.0)

Para pré -processamento:

A pasta filelists contém os arquivos de conjunto de dados LJSpeech MFA (Moteal Force Aligner), para que você não precise alinhar texto com áudio (para duração de extração) para o conjunto de dados LJSpeech. Para outro conjunto de dados, siga as instruções aqui. Para outros pré-processamento de execução seguindo o comando:

 python nvidia_preprocessing.py -d path_of_wavs

Para encontrar o min e o máximo de f0 e energia

 python compute_statistics.py

Atualize o seguinte em hparams.py por min e max de f0 e energia

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

Para treinamento

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

Observação

Para uma caixa de ferramentas mais completa e finais de voz de voz ou texto para a fala (TTS), visite a DeepSync Technologies.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 4.13MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos