Descargar cnn_vocoder - Descargar el código fuente cnn

cnn_vocoder

Código Fuente de IA

1.0.0

Descargar

Cnnvocoder

Nota: Ya no estoy trabajando en este proyecto. Ver #9.

Un vocoder con sede en CNN.

Este trabajo se inspira en el modelo M-CNN descrito en la inversión de espectrograma rápido utilizando redes neuronales convolucionales de cabeza múltiple. Los autores muestran que incluso una simple red de muestreo es suficiente para síntesis de la forma de onda del espectrograma/espectrograma MEL.

En este repositorio, utilizo la función de espectrograma para el modelo de entrenamiento porque contiene más información que la función de espectrograma MEL. Sin embargo, debido a que la transformación del espectrograma al espectrograma MEL es solo una proyección lineal, por lo que básicamente puede entrenar una red simple de predecir el espectrograma del espectrograma MEL. También puede cambiar los parámetros para poder entrenar a un vocoder de la función MEL-Spectrogram también.

Audios de muestra

Notas de arquitectura

Compare con M-CNN, mi red propuesta tiene algunas diferencias:

Utilizo las capas de muestreo Upsampling + en lugar de la capa de Conconv Transposed. Esto ayuda a prevenir artefactos de tablero de ajedrez.
El modelo utiliza muchos bloques residuales antes/después del módulo de muestreo ascendente para que la red sea más grande/profunda.
Solo usé la pérdida de L1 entre la magnitud STFT a escala logarítmica de la forma de onda predicha y objetivo. La pérdida de evaluación en el espacio de registro es mejor que en la magnitud stft en bruto porque está más cerca de la sensación humana sobre el volumen. Traté de calcular la pérdida en la función de espectrograma, pero no ayudó mucho.

Requisitos de instalación

$ pip install -r requirements.txt

Vocoder de entrenamiento

1. Prepare el conjunto de datos

Utilizo el conjunto de datos LJSPEECH para mi experimento. Si aún no lo tiene, descargue el conjunto de datos y colóquelo en algún lugar.

Después de eso, puede ejecutar el comando para generar un conjunto de datos para nuestro experimento:

$ python preprocessing.py --samples_per_audio 20  
--out_dir ljspeech 
--data_dir path/to/ljspeech/dataset 
--n_workers 4

2. Vocoder de tren

$ python train.py --out_dir ${output_directory}

Para más opciones de capacitación, ejecute:

$ python train.py --help

Generar audio a partir del espectrograma

Generar espectrograma desde audio

$ python gen_spec.py -i sample.wav -o out.npz

Generar audio a partir del espectrograma

$ python synthesis.py --model_path path/to/checkpoint 
                      --spec_path out.npz 
                      --out_path out.wav

Modelo previamente

Puedes obtener mi modelo previamente capacitado aquí.

Expresiones de gratitud

Esta implementación utiliza código de Nvidia, Ryuichi Yamamoto, Keith Ito como se describe en mi código.

Licencia

MIT

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 2.5MB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo