Download de hifi gan - Download do código -fonte hifi gan

hifi gan

Código-Fonte de IA

1.0.0

Baixar

HIFI-GAN: Redes adversárias generativas para síntese de fala eficiente e de alta fidelidade

Jungil Kong, Jaehyeon Kim, Jaekyoung Bae

Em nosso artigo, propusemos o HIFI-GAN: um modelo baseado em GaN capaz de gerar uma fala de alta fidelidade com eficiência.
Fornecemos nossa implementação e modelos pré -criados como código aberto neste repositório.

Resumo: Vários trabalhos recentes sobre síntese de fala empregaram redes adversárias generativas (GANs) para produzir formas de onda brutas. Embora esses métodos melhorem a eficiência da amostragem e o uso da memória, a qualidade da amostra ainda não atingiu a dos modelos generativos autorregressivos e baseados em fluxo. Neste trabalho, propomos o HIFI-GAN, que alcança a síntese de fala eficiente e de alta fidelidade. Como o áudio da fala consiste em sinais sinusoidais com vários períodos, demonstramos que a modelagem de padrões periódicos de um áudio é crucial para melhorar a qualidade da amostra. Uma avaliação humana subjetiva (pontuação média de opinião, MOS) de um conjunto de dados de alto-falante indica que nosso método proposto demonstra semelhança com a qualidade humana, gerando 22,05 kHz de áudio de alta fidelidade 167,9 vezes mais rápido que em tempo real em uma única GPU V100. Mostramos ainda a generalidade do HIFI-GAN para a inversão de espectro do espectro do MEL de falantes invisíveis e síntese de ponta a ponta. Finalmente, uma pequena versão pegada do HIFI-GAN gera amostras 13,4 vezes mais rápida que o tempo real na CPU com qualidade comparável a uma contraparte autoregressiva.

Visite nosso site de demonstração para amostras de áudio.

Pré-requisitos

Python> = 3.6
Clone este repositório.
Instale os requisitos do Python. Consulte requisitos.txt
Faça o download e extraia o conjunto de dados de fala do LJ. E mova todos os arquivos WAV para LJSpeech-1.1/wavs

Treinamento

 python train.py --config config_v1.json

Para treinar o gerador V2 ou V3, substitua config_v1.json por config_v2.json ou config_v3.json .
Os pontos de verificação e a cópia do arquivo de configuração são salvos no diretório cp_hifigan por padrão.
Você pode alterar o caminho adicionando -Opção --checkpoint_path .

Perda de validação durante o treinamento com o gerador V1.

Modelo pré -terenciado

Você também pode usar modelos pré -rastreados que fornecemos.
Baixe modelos pré -tenhados
Os detalhes de cada pasta são como a seguir:

Nome da pasta	Gerador	Conjunto de dados	Tuneado fino
Lj_v1	V1	LJSpeech	Não
Lj_v2	V2	LJSpeech	Não
Lj_v3	V3	LJSpeech	Não
Lj_ft_t2_v1	V1	LJSpeech	Sim (Tacotron2)
Lj_ft_t2_v2	V2	LJSpeech	Sim (Tacotron2)
Lj_ft_t2_v3	V3	LJSpeech	Sim (Tacotron2)
Vctk_v1	V1	Vctk	Não
Vctk_v2	V2	Vctk	Não
Vctk_v3	V3	Vctk	Não
Universal_v1	V1	Universal	Não

Fornecemos ao modelo universal pesos discriminadores que podem ser usados como base para o aprendizado de transferência para outros conjuntos de dados.

Afinação

Gere espectrogramas MEL no formato Numpy usando Tacotron2 com forçante de professores.
O nome do arquivo do espectrograma MEL gerado deve corresponder ao arquivo de áudio e a extensão deve ser .npy .
Exemplo:
```
 Audio File : LJ001-0001.wav
Mel-Spectrogram File : LJ001-0001.npy
```
Crie a pasta ft_dataset e copie os arquivos gerados por espectrograma MEL para ela.
Execute o seguinte comando.
```
 python train.py --fine_tuning True --config config_v1.json
```
Para outras opções de linha de comando, consulte a seção de treinamento.

Inferência do arquivo WAV

Faça do diretório test_files e copie os arquivos WAV no diretório.

Execute o seguinte comando.

 python inference.py --checkpoint_file [generator checkpoint file path]

Os arquivos WAV gerados são salvos em generated_files por padrão.
Você pode alterar o caminho adicionando --output_dir .

Inferência por síntese de fala de ponta a ponta

Faça o diretório test_mel_files e a cópia gerou arquivos MEL-Spectrograma no diretório.
Você pode gerar espectrogramas MEL usando Tacotron2, Glow-TTS e assim por diante.

Execute o seguinte comando.

 python inference_e2e.py --checkpoint_file [generator checkpoint file path]

Os arquivos WAV gerados são salvos em generated_files_from_mel por padrão.
Você pode alterar o caminho adicionando --output_dir .

Agradecimentos

Nós nos referimos a Waveglow, Melgan e Tacotron2 para implementar isso.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 606.93KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
versão Android de alta fidelidade do Viper

2024-04-07
Aplicativo VIPER HiFi

2023-06-04
Baixar jogo Mini HiFi City

2023-03-16

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos