Download WavThruVec_pytorch - WavThruVec_pytorch download do código fonte

WavThruVec_pytorch

Código-Fonte de IA

1.0.0

Baixar

Wavthruvec pytorch

Uma implementação não oficial de Wavthruvec baseada em Pytorch.

O artigo original é Wavthruvec: representação latente da fala como características intermediárias para a síntese de fala neural

arquitetura

O modelo Text2Vec segue principalmente a arquitetura FastSpeech (XCMYZ). Modifiquei o modelo, principalmente com base no RAD-TTS (NVIDIA's). E adiciono um ECAPA_TDNN como codificador de alto-falante, para uma condição de vários falantes.

Para outros detalhes não mencionados no artigo, também sigo os RAD-TTS.

O VEC2WAV é baseado principalmente no HIFI-GAN e introduz a normalização do lote condicional para condicionar a rede na incorporação do alto-falante. A sequência das taxas de UPSOMSOM é (5,4,4,2,2), de modo que o fator de amostragem é $ Times 320 $ (O papel original é $ Times 640 $ ), em outras palavras, os WAVs gerados têm uma taxa de amostragem de 16kHz (32kHz em papel original).

Treinamento text2vec

Inferência text2vec

VEC2WAV

Entrada

para texto:

Não use nenhum método de normalização de texto baseado em regras ou fonemização, mas alimente o caractere bruto e transforme-o em incorporação de texto como entradas.

para áudio:

Use a saída do WAV2VEC 2.0 como o recurso do WAV (em vez do espectrograma MEL), com um dtype de 'float32' e uma forma de (batch_size, n_frame, n_channel) .

Nota: n_Channel = 768 ou 1024, depende de qual versão do modelo pré-terenciado WAV2VEC 2.0 você está usando, porque o tencentgamemate fornece Fairseq-Version (768) e HuggingFace-Versão (1024). Essas duas versões têm uma forma de saída diferente.

WAV2VEC 2.0 pré -terenciado

A partir deste repositório wav2vec2.0 (discurso chinês pré -atreta), e também pode ser encontrado no huggingface

attn_prior

Uma das maiores diferenças entre Wavthruvec e FastSpeech é o módulo Monotonic Alignment Search (MAS) (consulte o alignment.py ).

No FastSpeech, os insumos de treinamento incluem o alinhamento de forças de professores para quadros MEL e tokens de texto. Especificamente, envolve o uso de MFA para gerar a duration dos quadros MEL para cada token de texto antes do treinamento.

Enquanto estiver em Wavthruvec, a duration é gerada usando o MAS a partir do RAD-TTS e é alimentada no regulador de comprimento (DurationPredictor).

De acordo com a Pesquisa de Alinhamento Monotônico e a implementação do RAD-TTS, ao treinar o modelo, os arquivos alinhados serão gerados em './data/align_prior' diretório, com o formato de nome do arquivo de {n_token}_{n_feat}_prior.pth .

ambiente

CUDA 10.1
Python 3.9.7
Tocha 1.8.1+Cu101
Torch-Optimizer 0.3.0
Torchaudio 0.8.1
Tensorboard 2.12.0
Librosa 0.8.0
Numba 0,56.4
Numpy 1.22.4
llvmlite 0.39.1

conjunto de dados e prepare

Aishell3

O prepare_data.py:

1. Leia os arquivos WAV e o modelo WAV2VEC2 pré -tenhado, resserva os WAVs a 16kHz e converta em arquivos .npy, que contribuem para o recurso WAV2VEC 2.0 correspondente.
2. Leia a transcrição Aishell3 (content.txt) e filtre o fonema e o espaço em branco chinês. Pegue o caminho da transcrição e do arquivo para construir a lista de trem (./ data/enc_train.txt).
3.Compense o vocabulário, que será usado para converter os caracteres em variável da tocha.

Como exemplo, prepare_data.py pegue apenas alguns alto -falantes e alguns arquivos WAV.

treinamento

Wavthruvec contém 2 componentes: text2vec (codificador) e vec2wav (decodificador), e eles treinam independentemente

Assim, eu os coloquei em dois diretores separados e usei diferentes configurações de treinamento para cada uma.

Tensorboard

Os loggers do Tensorboard são armazenados no diretório run/{log_seed}/tb_logs . Suponha que log_seed=1 , você pode usar este comando para servir o Tensorboard em sua localhost.

 tensorboard --logdir run/1/tb_logs

Salvar ponto de verificação e restaurar

Os pontos de verificação do modelo são salvos no diretório run/{log_seed}/model_new .

Suponha que você economize pontos de verificação a cada 10000 iterações e agora você tem um ponto de verificação checkpoint_10000.pth.tar . Se você precisar reiniciar o treinamento na step 10000 , use este comando.

 python ./text2vec/train.py --restore_step 10000

Pendência

Experimento e desempenho
Mais detalhes para implementação

Referência

Repositório

FastSpeech (XCMYZ's)
WAV2VEC2.0 (Fala Chinesa Pré -Trein)
rad-tts (nvidia's)
gan-tts (yanggeng1995's)
Hifi-Gan
Fastpitch (Dan-Wells ')
Ecapa_tdnn (Tao Ruijie's)
Ecapa_tdnn (Lawlict's)
GLOW-TTS (JAYWALNUT310's)

Papel

FastSpeech
FastSpeech2
Hifi-Gan
wav2vec
rad-tts
Pesquisa de alinhamento monotônico

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-14
tamanho 892.77KB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos