Téléchargement de voicefixer_main - Téléchargement de code source voicefixer

voicefixer_main

Code Source AI

1.0.0

Télécharger

2021-11-06: Je viens de mettre à jour la structure du code pour le rendre plus facile à comprendre. Il peut avoir un bug potentiel maintenant. Je ferai une formation de test plus tard.

~~2021-11-01: Je mettrai à jour le code et je vais le faciliter l'utilisation plus tard.~~

Fiche de la voix

VoiceFixer est un cadre de restauration générale de la parole. Nous visons la restauration d'un discours gravement dégradé et d'un discours historique.

Fiche de la voix
- Matériels
- Usage
  - Environnement (faites cela au début)
  - VoiceFixer pour la restauration générale de la parole
  - Resunet pour la restauration générale de la parole
  - Resunes pour la restauration de la parole d'une seule tâche
- Citation

Matériels

ARXIV PRÉALLER: https://arxiv.org/abs/2109.13731
La page de démonstration contient une comparaison entre la restauration de la parole d'une seule tâche, la restauration générale de la parole et le fichier de voix.
Nous avons écrit un package PIP pour VoiceFixer.
L'ensemble de données que nous utilisons dans ce dépôt: ensemble de données de formation et de test

Usage

Environnement (faites cela au début)

 # Download dataset and prepare running environment
git clone https://github.com/haoheliu/voicefixer_main.git
cd voicefixer_main
source init.sh

VoiceFixer pour la restauration générale de la parole

Ici, nous prenons VF_unet (VoiceFixer avec unet comme module d'analyse) comme exemple.

Entraînement

 # pass in a configuration file to the training script
python3 train_gsr_voicefixer.py -c config/vctk_base_voicefixer_unet.json # you can modify the configuration file to personalize your training

Vous pouvez vérifier le répertoire des journaux pour les points de contrôle, les résultats de la journalisation et de la validation.

Évaluation

Évaluation automatique et génération de fichiers .csv sur tous les ensembles de tests.

Par exemple, si vous aimez évaluer tous les tests de test (par défaut).

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint >

Par exemple, si vous voulez juste évaluer sur le test GSR.

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --testset  general_speech_restoration  
                    --description  general_speech_restoration_eval

Il y a généralement sept ensembles de tests auxquels vous pouvez passer - TestSet :

Base : Tous les tests
Clip : test avec une parole qui a un seuil d'écrêtage de 0,1, 0,25 et 0,5
Réverb : test avec la parole de réverbération
General_Speech_Restoration : TestSet avec discours qui contiennent toutes sortes de distorsions aléatoires
Amélioration : test avec un discours bruyant
Spe :

Et si vous souhaitez évaluer sur une petite partie des données, par exemple 10 énoncé. Vous pouvez transmettre le numéro à - limit_numbers l'argument.

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers 10

Les résultats de l'évaluation seront présentés dans le dossier exp_results .

Resunet pour la restauration générale de la parole

Entraînement

 # pass in a configuration file to the training script
python3 train_gsr_voicefixer.py -c config/vctk_base_voicefixer_unet.json

Vous pouvez vérifier le répertoire des journaux pour les points de contrôle, les résultats de la journalisation et de la validation.

Évaluation (similaire à l'évaluation de VoiceFixer)

python3 eval_ssr_unet.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers < int-test-only-on-a-few-utterance > 
                    --testset  < the-testset-you-want-to-use >  
                    --description  < describe-this-test >

Resunes pour la restauration de la parole d'une seule tâche

Entraînement

Émoi

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_denoising.json

Dérégère

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_dereverberation.json

Super résolution

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_super_resolution.json

Déclissage

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_declipping.json

Vous pouvez vérifier le répertoire des journaux pour les points de contrôle, les résultats de la journalisation et de la validation.

Évaluation (similaire à l'évaluation de VoiceFixer)

python3 eval_ssr_unet.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers < int-test-only-on-a-few-utterance > 
                    --testset  < the-testset-you-want-to-use >  
                    --description  < describe-this-test >

Citation

 @misc { liu2021voicefixer ,   
     title = { VoiceFixer: Toward General Speech Restoration With Neural Vocoder } ,   
     author = { Haohe Liu and Qiuqiang Kong and Qiao Tian and Yan Zhao and DeLiang Wang and Chuanzeng Huang and Yuxuan Wang } ,  
     year = { 2021 } ,  
     eprint = { 2109.13731 } ,  
     archivePrefix = { arXiv } ,  
     primaryClass = { cs.SD }  
 }