Download GenerSpeech - download de código -fonte GenerSpeech

GenerSpeech

Código-Fonte de IA

1.0.0

Baixar

Generspeech: Rumo a transferência de estilo para textos fora do domínio generalizáveis

Rongjie Huang, Yi Ren, Jinglin Liu, Chenye Cui, Zhou Zhao | Universidade de Zhejiang, Laboratório do Mar AI

Implementação de Pytorch do Generspeech (Neurips'22): um modelo de texto para fala em direção ao estilo de alta fidelidade de fidelidade zero transferência de voz personalizada Ood.

Fornecemos nossa implementação e modelos pré -criados neste repositório.

Visite nossa página de demonstração para amostras de áudio.

Notícias

Dezembro de 2022: Generspeech (Neurips 2022) lançado no GitHub.

Principais recursos

Transferência de estilo de vários níveis para expressão expressiva de texto para fala.
Generalização de modelo aprimorada para referência ao estilo de distribuição (OOD).

Iniciado rápido

Fornecemos um exemplo de como você pode gerar amostras de alta fidelidade usando o geneerspeech.

Para experimentar seu próprio conjunto de dados, basta clonar este repositório em sua máquina local fornecida com a NVIDIA GPU + CUDA CUDNN e siga as instruções abaixo.

Suportar conjuntos de dados e modelos pré -tenhados

Você pode usar modelos pré -rastreados que fornecemos aqui e dados aqui. Os detalhes de cada pasta são como a seguir:

Modelo	Conjunto de dados (16 kHz)	Descrição
Generspeech	Libritts, ESD	Modelo ACOUSITIC (Config)
Hifi-Gan	Libritts, ESD	Vocoder neural
Codificador	/	Codificador de emoção

Os conjuntos de dados mais suportados estão chegando em breve.

Dependências

Um ambiente de conda adequado chamado generspeech pode ser criado e ativado com:

 conda env create -f environment.yaml
conda activate generspeech

Multi-GPU

Por padrão, essa implementação usa tantos GPUs em paralelo quanto retornados por torch.cuda.device_count() . Você pode especificar quais GPUs usarem a variável de ambiente CUDA_DEVICES_AVAILABLE Antes de executar o módulo de treinamento.

Inferência (Zero Shot TTS)

Aqui, fornecemos um pipeline de síntese de fala usando Generpeech.

Prepare Generspeech (modelo acústico): baixe e coloque ponto de verificação nos checkpoints/GenerSpeech
Prepare Hifi-Gan (vocoder neural): baixe e coloque pontos de verificação em checkpoints/trainset_hifigan
Prepare o codificador de emoção : baixe e coloque pontos de verificação em checkpoints/Emotion_encoder.pt
Prepare o conjunto de dados : faça o download e coloque arquivos estatísticos em data/binary/training_set
Prepare o caminho/para/reference_audio (16K) : Por padrão, o Generspeech usa o ASR + MFA para obter o alinhamento de fala do texto da referência.

CUDA_VISIBLE_DEVICES= $GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --hparams= " text='here we go',ref_audio='assets/0011_001570.wav' "

Os arquivos WAV gerados são salvos em infer_out por padrão.

Treine seu próprio modelo

Preparação e configuração de dados

Definir raw_data_dir , processed_data_dir , binary_data_dir no arquivo de configuração e faça o download do conjunto de dados para raw_data_dir .
Verifique preprocess_cls no arquivo de configuração. A estrutura do conjunto de dados precisa seguir o processador preprocess_cls , ou você pode reescrevê -lo de acordo com o seu conjunto de dados. Fornecemos um processador Libritts como um exemplo em modules/GenerSpeech/config/generspeech.yaml
Faça o download do codificador de emoção global para emotion_encoder_path . Para mais detalhes, consulte esta filial.
Conjunto de dados de pré -processo

 # Preprocess step: unify the file structure.
python data_gen/tts/bin/preprocess.py --config $path /to/config
# Align step: MFA alignment.
python data_gen/tts/bin/train_mfa_align.py --config $path /to/config
# Binarization step: Binarize data for fast IO.
CUDA_VISIBLE_DEVICES= $GPU python data_gen/tts/bin/binarize.py --config $path /to/config

Você também pode criar um conjunto de dados via Natspeech, que compartilha um procedimento comum de processamento de dados de MFA. Também fornecemos nosso conjunto de dados processado (16KHz Libritts+ESD).

Treinamento Generspeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --reset

Inferência usando generpeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --infer

Agradecimentos

Esta implementação usa partes do código dos seguintes repositórios do GitHub: FastDiff, NatSpeech, conforme descrito em nosso código.

Citações

Se você achar esse código útil em sua pesquisa, cite nosso trabalho:

 @inproceedings { huanggenerspeech ,
  title = { GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech } ,
  author = { Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou } ,
  booktitle = { Advances in Neural Information Processing Systems }
}

Isenção de responsabilidade

Qualquer organização ou indivíduo é proibido de usar qualquer tecnologia mencionada neste artigo para gerar o discurso de alguém sem o seu consentimento, incluindo, entre outros, líderes governamentais, figuras políticas e celebridades. Se você não cumprir este item, poderá violar as leis de direitos autorais.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-22
tamanho 256.8KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos