Descargar WavThruVec_pytorch - Descargar el código fuente WavThruVec

WavThruVec_pytorch

Código Fuente de IA

1.0.0

Descargar

Pytorch wavthruvec

Una implementación no oficial de Wavthruvec basada en Pytorch.

El documento original es Wavthruvec: representación latente del habla como características intermedias para la síntesis de habla neuronal

arquitectura

El modelo Text2Vec sigue principalmente la arquitectura FastSpeech (XCMYZ). Modifiqué el modelo, principalmente basado en RAD-TTS (NVIDIA). Y agrego un ECAPA_TDNN como codificador de altavoces, para la condición de múltiples altas.

Para otros detalles no mencionados en el documento, también sigo el RAD-TTS.

El VEC2WAV se basa principalmente en el Hifi-Gan e introduce la normalización de lotes condicionales para acondicionar la red en la inclusión del altavoz. La secuencia de tasas de muestra de altibajos es (5,4,4,2,2), por lo que el factor de muestreo ascendente es $ Times 320 $ (El papel original es $ Times 640 $ ), en otras palabras, los Wavs generados tienen una frecuencia de muestreo de 16 kHz (32 kHz en papel original).

Text2Vec Training

inferencia text2vec

vec2wav

Aporte

Para el texto:

No use ningún método de normalización o fonemización de texto basado en reglas, sino que alimente el carácter sin procesar y se transforme en incrustaciones de texto como entradas.

para audio:

Use la salida WAV2VEC 2.0 como la función de WAV (en lugar del espectrograma MEL), con un dtype de 'float32' y una forma de (batch_size, n_frame, n_channel) .

Nota: N_Channel = 768 o 1024, depende de qué versión del modelo previamente pracricado WAV2VEC 2.0 esté utilizando, porque Tencentgamemate proporciona a FairSeq-Version (768) y a la versión de la cara de abrazo (1024). Estas dos versión tienen una forma de salida diferente.

wav2vec 2.0 previamente

De este repositorio WAV2VEC2.0 (pretrano del habla chino), y también se puede encontrar en Huggingface

attn_prior

Una de las mayores diferencia entre Wavthruvec y FastSpeech es el módulo de búsqueda de alineación monotónica (MAS) (consulte el alignment.py ).

En FastSpeech, las entradas de capacitación incluyen la alineación de los maestros para los marcos MEL y los tokens de texto. Específicamente, implica el uso de MFA para generar la duration de los marcos MEL para cada token de texto antes del entrenamiento.

Mientras que en Wavthruvec, la duration se genera utilizando el MAS de los RAD-TTS, y se alimenta al LongitudeRregulador (DuraciónPredictor).

De acuerdo con la búsqueda de alineación monotónica y la implementación de RAD-TTS, cuando capacita el modelo, los archivos Align-Prior se generarían en el directorio './data/align_prior' , con el formato de nombre de archivo de {n_token}_{n_feat}_prior.pth .

ambiente

CUDA 10.1
Python 3.9.7
antorcha 1.8.1+cu101
Optimizador de antorcha 0.3.0
Torchaudio 0.8.1
Tensorboard 2.12.0
Librosa 0.8.0
numba 0.56.4
Numpy 1.22.4
llvmlite 0.39.1

conjunto de datos y preparar

Aishell3

El prepare_data.py:

1. Realice los archivos WAV y el modelo de petróleo WAV2VEC2, vuelva a muestrear los Wavs a 16kHz y convierta a archivos .npy, lo que contraiga la característica WAV2VEC 2.0 correspondiente.
2. Realice la transcripción AISHELL3 (content.txt) y filtre el fonema chino y en blanco. Tome la ruta de transcripción y archivo para crear la lista de trenes (./ data/enc_train.txt).
3. Construya el vocabulario, que se utilizará para convertir los personajes en variable de antorcha.

Como ejemplo, prepare_data.py solo tome algunos altavoces y algunos archivos WAV.

capacitación

Wavthruvec contrata 2 componentes: Text2Vec (codificador) y VEC2WAV (decodificador), y entrenan de forma independiente

Por lo tanto, los coloqué en dos Dirs separados y usé diferentes configuraciones de entrenamiento para cada una.

Tabla tensor

Los registradores de tensorboard se almacenan en el directorio run/{log_seed}/tb_logs . Supongamos que log_seed=1 , puede usar este comando para servir la placa tensor en su localhost.

 tensorboard --logdir run/1/tb_logs

Guardar el punto de control y restaurar

Los puntos de control del modelo se guardan en el directorio run/{log_seed}/model_new .

Supongamos que guarda los puntos de control cada 10000 iteraciones, y ahora tiene un punto de control checkpoint_10000.pth.tar . Si necesita reiniciar la capacitación en step 10000 , use este comando.

 python ./text2vec/train.py --restore_step 10000

Hacer

Experimentar y realizar
Más detalles para la implementación

Referencia

Repositorio

FastSpeech (xcmyz)
WAV2VEC2.0 (pretrano del habla china)
Rad-TTS (Nvidia's)
Gan-TTS (Yanggeng1995)
hifi-gan
Fastpitch (Dan-Wells ')
ECAPA_TDNN (Tao Ruijie's)
ECAPA_TDNN (LawLict's)
GLOW-TTS (Jaywalnut310's)

Papel

Espacios rápidos
FastSpeech2
hifi-gan
wav2vec
TT-TTS
búsqueda de alineación monotónica

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-14
tamaño 892.77KB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo