Download voicefixer_main - voicefixer_main download de código fonte

voicefixer_main

Código-Fonte de IA

1.0.0

Baixar

2021-11-06: Acabei de atualizar a estrutura de código para facilitar o entendimento. Pode ter um bug potencial agora. Farei algum treinamento de teste mais tarde.

~~2021-11-01: Atualizarei o código e facilitarei o uso posterior.~~

VoiceFixer

O VoiceFixer é uma estrutura para a restauração geral da fala. Nosso objetivo é a restauração de fala gravemente degradada e fala histórica.

VoiceFixer
- Materiais
- Uso
  - Ambiente (faça isso no início)
  - Voicefixer para restauração geral de fala
  - Redunet para restauração geral de fala
  - RESUNTE para restauração de fala de tarefa única
- Citação

Materiais

ARXIV pré -impressão: https://arxiv.org/abs/2109.13731
A página de demonstração contém comparação entre restauração de fala de tarefa única, restauração geral da fala e vooderfixer.
Escrevemos um pacote PIP para o botefixer.
O conjunto de dados que usamos neste repositório: conjuntos de dados de treinamento e teste

Uso

Ambiente (faça isso no início)

 # Download dataset and prepare running environment
git clone https://github.com/haoheliu/voicefixer_main.git
cd voicefixer_main
source init.sh

Voicefixer para restauração geral de fala

Aqui, tomamos VF_UNET (VoiceFixer com o módulo de análise UNET como um exemplo.

Treinamento

 # pass in a configuration file to the training script
python3 train_gsr_voicefixer.py -c config/vctk_base_voicefixer_unet.json # you can modify the configuration file to personalize your training

Você pode verificar o diretório de logs para pontos de verificação, resultados de log e validação.

Avaliação

Avaliação automática e geração do arquivo .csv em todos os testes.

Por exemplo, se você deseja avaliar todo o teste de teste (padrão).

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint >

Por exemplo, se você só quiser avaliar no GSR TestSet.

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --testset  general_speech_restoration  
                    --description  general_speech_restoration_eval

Geralmente, existem sete testes para os quais você pode passar -Testset :

Base : Todo o teste de teste
Clipe : TestSet com fala que possui limiar de recorte de 0,1, 0,25 e 0,5
Reverb : teste de teste com discurso reverberado
General_Speech_restoration : TestSet com fala que contém todos os tipos de distorções aleatórias
Aprimoramento : TestSet com discurso barulhento
Speech_Super_Resolution : TestSet com discurso de baixa resolução com taxa de amostragem de 2kHz, 4kHz, 8kHz, 16kHz e 24kHz.

E se você deseja avaliar uma pequena parte dos dados, por exemplo, 10 enunciado. Você pode passar o número para -LIMIT_NUMBERS .

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers 10

Os resultados da avaliação serão apresentados na pasta Exp_Results .

Redunet para restauração geral de fala

Treinamento

 # pass in a configuration file to the training script
python3 train_gsr_voicefixer.py -c config/vctk_base_voicefixer_unet.json

Você pode verificar o diretório de logs para pontos de verificação, resultados de log e validação.

Avaliação (semelhante à avaliação do botefixer)

python3 eval_ssr_unet.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers < int-test-only-on-a-few-utterance > 
                    --testset  < the-testset-you-want-to-use >  
                    --description  < describe-this-test >

RESUNTE para restauração de fala de tarefa única

Treinamento

Denoising

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_denoising.json

Desreverberação

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_dereverberation.json

Super resolução

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_super_resolution.json

Recusando

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_declipping.json

Você pode verificar o diretório de logs para pontos de verificação, resultados de log e validação.

Avaliação (semelhante à avaliação do botefixer)

python3 eval_ssr_unet.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers < int-test-only-on-a-few-utterance > 
                    --testset  < the-testset-you-want-to-use >  
                    --description  < describe-this-test >

Citação

 @misc { liu2021voicefixer ,   
     title = { VoiceFixer: Toward General Speech Restoration With Neural Vocoder } ,   
     author = { Haohe Liu and Qiuqiang Kong and Qiao Tian and Yan Zhao and DeLiang Wang and Chuanzeng Huang and Yuxuan Wang } ,  
     year = { 2021 } ,  
     eprint = { 2109.13731 } ,  
     archivePrefix = { arXiv } ,  
     primaryClass = { cs.SD }  
 }