Descargar voicefixer_main - Descargar el código fuente de voicefixer

voicefixer_main

Código Fuente de IA

1.0.0

Descargar

2021-11-06: Acabo de actualizar la estructura del código para que sea más fácil de entender. Puede tener un error potencial ahora. Haré un poco de entrenamiento de pruebas más tarde.

~~2021-11-01: Actualizaré el código y haré que sea más fácil de usar más adelante.~~

Vozfixer

VoiceFixer es un marco para la restauración general del habla. Apuntamos a la restauración del habla severamente degradada y el discurso histórico.

Vozfixer
- Materiales
- Uso
  - Medio ambiente (haz esto al principio)
  - VoiceFixer para la restauración general del habla
  - Resunción para la restauración general del habla
  - Resunción para la restauración del habla de una sola tarea
- Citación

Materiales

Preimpresión de Arxiv : https://arxiv.org/abs/2109.13731
La página de demostración contiene una comparación entre la restauración del habla de la tarea única, la restauración general del habla y la voz de voz.
Escribimos un paquete PIP para VoiceFixer.
El conjunto de datos que utilizamos en este repositorio: conjuntos de datos de capacitación y prueba

Uso

Medio ambiente (haz esto al principio)

 # Download dataset and prepare running environment
git clone https://github.com/haoheliu/voicefixer_main.git
cd voicefixer_main
source init.sh

VoiceFixer para la restauración general del habla

Aquí tomamos VF_UNET (VoiceFixer con UneT as Analyse Module) como ejemplo.

Capacitación

 # pass in a configuration file to the training script
python3 train_gsr_voicefixer.py -c config/vctk_base_voicefixer_unet.json # you can modify the configuration file to personalize your training

Puede consultar el directorio de registros para obtener resultados de puntos de control, registro y validación.

Evaluación

Evaluación automática y generación del archivo .csv en todos los conjuntos de pruebas.

Por ejemplo, si desea evaluar en todas las pruebas (predeterminado).

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint >

Por ejemplo, si solo quieres evaluar en GSR TestSet.

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --testset  general_speech_restoration  
                    --description  general_speech_restoration_eval

Generalmente hay siete conjuntos de pruebas que puede pasar a - -testset :

Base : todas las pruebas
Clip : TestSet con discurso que tiene un umbral de recorte de 0.1, 0.25 y 0.5
Reverb : TestSet con el discurso de reverberado
General_speech_restoration : TestSet con discurso que contiene todo tipo de distorsiones aleatorias
Mejora : TestSet con discurso ruidoso
Speech_super_resolution : TestSet con discurso de baja resolución que tiene una tasa de muestreo de 2kHz, 4kHz, 8kHz, 16kHz y 24 kHz.

Y si desea evaluar en una pequeña porción de datos, por ejemplo, 10 enunciado. Puede pasar el número al argumento --limit_numbers .

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers 10

Los resultados de la evaluación se presentarán en la carpeta Exp_Results .

Resunción para la restauración general del habla

Capacitación

 # pass in a configuration file to the training script
python3 train_gsr_voicefixer.py -c config/vctk_base_voicefixer_unet.json

Puede consultar el directorio de registros para obtener resultados de puntos de control, registro y validación.

Evaluación (similar a la evaluación de VoiceFixer)

python3 eval_ssr_unet.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers < int-test-only-on-a-few-utterance > 
                    --testset  < the-testset-you-want-to-use >  
                    --description  < describe-this-test >

Resunción para la restauración del habla de una sola tarea

Capacitación

Renovado

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_denoising.json

Desinverberación

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_dereverberation.json

Super resolución

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_super_resolution.json

Declive

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_declipping.json

Puede consultar el directorio de registros para obtener resultados de puntos de control, registro y validación.

Evaluación (similar a la evaluación de VoiceFixer)

python3 eval_ssr_unet.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers < int-test-only-on-a-few-utterance > 
                    --testset  < the-testset-you-want-to-use >  
                    --description  < describe-this-test >

Citación

 @misc { liu2021voicefixer ,   
     title = { VoiceFixer: Toward General Speech Restoration With Neural Vocoder } ,   
     author = { Haohe Liu and Qiuqiang Kong and Qiao Tian and Yan Zhao and DeLiang Wang and Chuanzeng Huang and Yuxuan Wang } ,  
     year = { 2021 } ,  
     eprint = { 2109.13731 } ,  
     archivePrefix = { arXiv } ,  
     primaryClass = { cs.SD }  
 }