download wavenet_vocoder - wavenet_vocoder download de código fonte

wavenet_vocoder

Pitão

v0.1.1 release

Baixar

Vocoder wavenet

Nota : Esta é a versão de desenvolvimento. Se você precisar de uma versão estável, consulte a v0.1.1.

O objetivo do repositório é fornecer uma implementação do vocoder wavenet, que pode gerar amostras de fala bruta de alta qualidade condicionadas a características linguísticas ou acústicas.

As amostras de áudio estão disponíveis em https://r9y9.github.io/wavenet_vocoder/.

Notícias

2019/10/31: O repositório foi adaptado à ESPNET. Amostras em inglês, chinês e japonês e modelos pré -gravados estão disponíveis lá. Consulte https://github.com/espnet/espnet e https://github.com/espnet/espnet#tts-sults para obter detalhes.

Demo tts online

Um caderno que deveria ser executado em https://colab.research.google.com está disponível:

Tacotron2: demonstração de texto para fala baseado em wavenet

Destaques

Concentre -se no condicionamento local e global da WaveNet, essencial para o vocoder.
Modelagem de áudio bruta de 16 bits por distribuições de mistura: são suportadas a mistura de logística (mol), mistura de gaussianos e distribuições gaussianas únicas.
Várias amostras de áudio e modelos pré-treinados
Inferência rápida ao armazenar em cache estados intermediários em convoluções. Semelhante ao ARXIV: 1611.09482
Integração com a ESPNET (https://github.com/espnet/espnet)

Modelos pré-treinados

NOTA : Este não é um modelo de texto em fala (TTS). Com um modelo pré-treinado fornecido aqui, você pode sintetizar a forma de onda, dada um espectrograma MEL , não um texto bruto. Você precisará do modelo de previsão de espectro do MEL (como o Tacotron2) para usar os modelos pré-treinados para TTS.

NOTA : Quanto ao modelo pré-terenciado para LJSpeech, o modelo foi ajustado várias vezes e treinado para mais de 1000 mil etapas no total. Consulte os problemas ( #1, #75, #45) para saber como o modelo foi treinado.

Modelo URL	Dados	Hyper Params URL	Git Commit	Passos
link	LJSpeech	link	2092A64	1000K ~ Etapas
link	CMU Ártico	link	B1A1076	740k etapas

Para usar modelos pré-treinados, primeiro consulte o commit Git específico mencionado acima. ou seja,

 git checkout ${commit_hash}

E depois segue a seção "SyntheSize do ponto de verificação" no ReadMe. Observe que a versão antiga do Synthesis.Py não pode aceitar --preset=<json> parâmetro e você pode ter que alterar o arquivo hparams.py de acordo com o arquivo predefinido (JSON).

Você pode tentar, por exemplo:

 # Assuming you have downloaded LJSpeech-1.1 at ~/data/LJSpeech-1.1
# pretrained model (20180510_mixture_lj_checkpoint_step000320000_ema.pth)
# hparams (20180510_mixture_lj_checkpoint_step000320000_ema.json)
git checkout 2092a64
python preprocess.py ljspeech ~/data/LJSpeech-1.1 ./data/ljspeech 
  --preset=20180510_mixture_lj_checkpoint_step000320000_ema.json
python synthesis.py --preset=20180510_mixture_lj_checkpoint_step000320000_ema.json 
  --conditional=./data/ljspeech/ljspeech-mel-00001.npy 
  20180510_mixture_lj_checkpoint_step000320000_ema.pth 
  generated

Você pode encontrar um arquivo WAV gerado no diretório generated . Gostaria de saber como funciona? Então dê uma olhada no código :)

Estrutura do repositório

O repositório consiste em 1) biblioteca Pytorch, 2) ferramentas de linha de comando e 3) receitas no estilo ESPNET. O primeiro é uma biblioteca Pytorch para fornecer funcionalidade wavanet. O segundo é um conjunto de ferramentas para executar o treinamento/inferência do WaveNet, processamento de dados etc. O último são as receitas reproduzíveis que combinam as ferramentas da biblioteca e utilitários do WaveNet. Por favor, dê uma olhada neles, dependendo do seu propósito. Se você deseja construir seu WaveNet no seu conjunto de dados (acho que esse é o caso mais provável), a receita é o caminho para você.

Requisitos

Python 3
CUDA> = 8.0
Pytorch> = v0.4.0

Instalação

 git clone https://github.com/r9y9/wavenet_vocoder && cd wavenet_vocoder
pip install -e .

Se você precisar apenas da parte da biblioteca, poderá instalá -la no Pypi:

 pip install wavenet_vocoder

Começando

Receitas no estilo Kaldi

O repositório fornece receitas no estilo kaldi para tornar os experimentos reproduzíveis e facilmente gerenciáveis. As receitas disponíveis são as seguintes:

mulaw256 : WaveNet que usa a distribuição de saída categórica. A entrada é uma forma de onda quantizada de Mulaw de 8 bits.
mol : Mistura de Logística (Mol) WaveNet. A entrada é de áudio bruto de 16 bits.
gaussian : Wavenet de Gaussian único (também conhecido como Professor Wavenet do Clarinete). A entrada é de áudio bruto de 16 bits.

Toda a receita foi run.sh , que especifica todas as etapas para executar o treinamento/inferência do WaveNet, incluindo o pré -processamento de dados. Consulte Run.sh no diretório EGS para obter detalhes.

Aviso : o condicionamento global para wavenet de vários falantes não é suportado nas receitas acima (embora não seja difícil de implementar). Verifique v0.1.12 para o recurso ou, se você realmente precisar do recurso, por favor, levante um problema.

Aplique receita ao seu próprio conjunto de dados

As receitas foram projetadas para serem genéricas para que se possa usá -las para qualquer conjunto de dados. Para aplicar receitas ao seu próprio conjunto de dados, você precisará colocar todos os arquivos WAV em um único diretório plano. ou seja,

 > tree -L 1 ~/data/LJSpeech-1.1/wavs/ | head
/Users/ryuichi/data/LJSpeech-1.1/wavs/
├── LJ001-0001.wav
├── LJ001-0002.wav
├── LJ001-0003.wav
├── LJ001-0004.wav
├── LJ001-0005.wav
├── LJ001-0006.wav
├── LJ001-0007.wav
├── LJ001-0008.wav
├── LJ001-0009.wav

É isso! A última etapa é modificar db_root em run.sh ou dar db_root como a linha de comando argent for run.sh.

 ./run.sh --stage 0 --stop-stage 0 --db-root ~/data/LJSpeech-1.1/wavs/

Passo a passo

Uma receita normalmente consiste em várias etapas. É altamente recomendável executar a receita passo a passo para entender como funciona pela primeira vez. Para fazer isso, especifique stage e stop_stage da seguinte forma:

 ./run.sh --stage 0 --stop-stage 0

 ./run.sh --stage 1 --stop-stage 1

 ./run.sh --stage 2 --stop-stage 2

Em situações típicas, você precisaria especificar dispositivos CUDA explicitamente expecialmente para a etapa de treinamento.

 CUDA_VISIBLE_DEVICES="0,1" ./run.sh --stage 2 --stop-stage 2

DOCs para ferramentas de linha de comando

As ferramentas de linha de comando são escritas com docopt. Veja cada documentação para os usos básicos.

tojson.py

Despeje hyperparameters em um arquivo JSON.

Uso:

 python tojson.py --hparams="parameters you want to override" <output_json_path>

preprocess.py

Uso:

 python preprocess.py wavallin ${dataset_path} ${out_dir} --preset=<json>

TRIN.PY

Nota: Para treinamento multi -GPU, é melhor garantir que Batch_size % num_gpu == 0

Uso:

 python train.py --dump-root=${dump-root} --preset=<json>
  --hparams="parameters you want to override"

avaliar.py

Dado um diretory que contém recursos de condicionamento local, sintetize formas de onda para eles.

Uso:

 python evaluate.py ${dump_root} ${checkpoint} ${output_dir} --dump-root="data location"
    --preset=<json> --hparams="parameters you want to override"

Opções:

--num-utterances=<N> : Número de enunciadas a serem geradas. Se não for especificado, gerar todas as expressões. Isso é útil para depuração.

síntese.py

Aviso : isso provavelmente não está funcionando agora. Por favor, use avaliar.py em vez disso.

O SyntheSize Waveform fornece um recurso de condicionamento.

Uso:

 python synthesis.py ${checkpoint_path} ${output_dir} --preset=<json> --hparams="parameters you want to override"

Opções importantes:

--conditional=<path> : (necessário para o caminho da onda condicional) do caminho dos recursos condicionais locais (.npy). Se isso for especificado, o número de etapas de tempo a ser gerado é determinado pelo tamanho do recurso condicional.

Cenários de treinamento

Treinando Wavenet não condicional

Aviso : isso provavelmente não está funcionando agora. Verifique v0.1.1 para obter a versão de trabalho.

 python train.py --dump-root=./data/cmu_arctic/
    --hparams="cin_channels=-1,gin_channels=-1"

Você precisa desativar o condicionamento global e local, definindo gin_channels e cin_channels para valores negativos.

Treinamento WaveNet condicionado no MEL-Spectrograma

 python train.py --dump-root=./data/cmu_arctic/ --speaker-id=0 
    --hparams="cin_channels=80,gin_channels=-1"

Treinamento WaveNet condicionado ao MEL-Spectrogram e incorporação de alto-falante

Aviso : isso provavelmente não está funcionando agora. Verifique v0.1.1 para obter a versão de trabalho.

 python train.py --dump-root=./data/cmu_arctic/ 
    --hparams="cin_channels=80,gin_channels=16,n_speakers=7"

Misc

Monitor com Tensorboard

Os logs são despejados no diretório ./log por padrão. Você pode monitorar logs por Tensorboard:

 tensorboard --logdir=log

Lista de trabalhos que usaram o repositório

Uma comparação de vocoders neurais recentes para a reconstrução do sinal de fala https://www.isca-peech.org/archive/SSW_2019/abstracts/ssw10_o_1-2.html
Waveglow: uma rede generativa baseada em fluxo para síntese de fala https://arxiv.org/abs/1811.00002
WaveCyclegan2: pós-filtro neural do domínio do tempo para geração de formas de onda de fala https://arxiv.org/abs/1904.02892
Resíntese paramétrica com vocoders neurais https://arxiv.org/abs/1906.06762
Mistura de representação para síntese de TTS https://arxiv.org/abs/1811.07240
Uma arquitetura neural unificada para tarefas de áudio instrumental https://arxiv.org/abs/1903.00142
ESPNET-TTS: Unificado, reproduzível e integrável de código aberto de ponta a ponta-a-final do kit de ferramentas: https://arxiv.org/abs/1910.10909

Muito obrigado!! Se você encontrar um novo, envie um pr.

Patrocinadores

https://github.com/echelon

Referências

Aaron van den Oord, Sander Dieleman, Heiga Zen, et al, "Wavenet: um modelo generativo para áudio bruto", Arxiv: 1609.03499, setembro de 2016.
Aaron van den Oord, Yazhe Li, Igor Babuschkin, et al, "Wavenet paralelo: síntese rápida de fala de alta fidelidade", Arxiv: 1711.10433, novembro de 2017.
Tamamori, Akira, et al. "Vocoder de wavenet dependente do alto-falante". Anais da Interspeech. 2017.
Jonathan Shen, Ruoming Pang, Ron J. Weiss, et al, "Síntese natural de TTS, condicionando o WaveNet nas previsões do espectrograma MEL", ARXIV: 1712.05884, dezembro de 2017.
Wei Ping, Kainan Peng, Andrew Gibiansky, et al, "Deep Voice 3: 2000-falante Texto em fala", Arxiv: 1710.07654, outubro de 2017.
Tom Le Paine, Pooya Khorrami, Shiyu Chang, et al, "Algoritmo de geração de wavenet rápido", Arxiv: 1611.09482, novembro de 2016
Ye Jia, Yu Zhang, Ron J. Weiss, Quan Wang, Jonathan Shen, Fei REN, Zhifeng Chen, Patrick Nguyen, Ruoming Pang, Ignacio lopez moreno, Yonghui Wu, et al, "Learning da verificação do alto-falante para o textuito do alto-falante.

Expandir

Informações adicionais

Versão v0.1.1 release
Tipo Pitão
Data da Última Atualização 2025-07-11
tamanho 101.28KB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Cachorro_Fox_Coelho

2022-08-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ToDo Co

Pitão

1.0.0
Python Portfolio

Pitão
datamule python

Pitão
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos