voicefixer_main Download - voicefixer_main Quellcode herunterladen

voicefixer_main

AI-Quellcode

1.0.0

Herunterladen

2021-11-06: Ich habe gerade die Codestruktur aktualisiert, um das Verständnis zu erleichtern. Es kann jetzt potenziellen Fehler haben. Ich werde später ein Testtraining durchführen.

~~2021-11-01: Ich werde den Code aktualisieren und die spätere Verwendung erleichtern.~~

VoiceFixer

VoiceFixer ist ein Rahmen für die allgemeine Redewiederherstellung. Wir zielen darauf ab, die Wiederherstellung stark verschlechterter Sprache und historischer Sprache wiederherzustellen.

VoiceFixer
- Materialien
- Verwendung
  - Umwelt (machen Sie dies zunächst)
  - VoiceFixer für die allgemeine Redewiederherstellung
  - Resunet für die allgemeine Redewiederherstellung
  - Resunet für die Wiederherstellung der Sprachrestaurierung für einzelne Aufgaben
- Zitat

Materialien

ARXIV Preprint: https://arxiv.org/abs/2109.13731
Die Demo -Seite enthält einen Vergleich zwischen Einzelaufgaben zur Wiederherstellung der einzelnen Aufgaben, der allgemeinen Sprachrestaurierung und dem VoiceFixer.
Wir haben ein PIP -Paket für VoiceFixer geschrieben.
Der Datensatz, den wir in diesem Repo verwenden: Trainings- und Testen von Datensätzen

Verwendung

Umwelt (machen Sie dies zunächst)

 # Download dataset and prepare running environment
git clone https://github.com/haoheliu/voicefixer_main.git
cd voicefixer_main
source init.sh

VoiceFixer für die allgemeine Redewiederherstellung

Hier nehmen wir VF_Unet (VoiceFixer mit UNET als Analysemodul) als Beispiel.

Ausbildung

 # pass in a configuration file to the training script
python3 train_gsr_voicefixer.py -c config/vctk_base_voicefixer_unet.json # you can modify the configuration file to personalize your training

Sie können das Protokoll -Verzeichnis für Checkpoints-, Protokollierungs- und Validierungsergebnisse auschecken.

Auswertung

Automatische Bewertung und Generierung von .csv -Datei für alle Testsets.

Wenn Sie beispielsweise auf allen Testset (Standard) bewerten möchten.

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint >

Zum Beispiel, wenn Sie nur auf GSR Testset bewerten möchten.

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --testset  general_speech_restoration  
                    --description  general_speech_restoration_eval

Es gibt im Allgemeinen sieben Testsets, an die Sie übergeben werden können -Testset :

Basis : Alle Testset
Clip : Testset mit Sprache, die einen Schnittschwellenwert von 0,1, 0,25 und 0,5 aufweisen
Reverb : Testset mit Nachhallrede
General_speech_restoration : Testset mit Sprache, die alle Arten von zufälligen Verzerrungen enthalten
Verbesserung : Testset mit lautes Sprache
Sprache_Super_Resolution : Testset mit Sprache mit niedriger Auflösung, die eine Stichprobenrate von 2kHz, 4kHz, 8kHz, 16 kHz und 24 kHz aufweist.

Und wenn Sie einen kleinen Teil der Daten bewerten möchten, z. B. 10 Äußerung. Sie können die Nummer an -limit_numbers Argument übergeben.

python3 eval_gsr_voicefixer.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers 10

Die Bewertungsergebnisse werden im Ordner Exp_Results dargestellt.

Resunet für die allgemeine Redewiederherstellung

Ausbildung

 # pass in a configuration file to the training script
python3 train_gsr_voicefixer.py -c config/vctk_base_voicefixer_unet.json

Sie können das Protokoll -Verzeichnis für Checkpoints-, Protokollierungs- und Validierungsergebnisse auschecken.

Bewertung (ähnlich der VoiceFixer -Bewertung)

python3 eval_ssr_unet.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers < int-test-only-on-a-few-utterance > 
                    --testset  < the-testset-you-want-to-use >  
                    --description  < describe-this-test >

Resunet für die Wiederherstellung der Sprachrestaurierung für einzelne Aufgaben

Ausbildung

Denoising

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_denoising.json

Derverberation

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_dereverberation.json

Superauflösung

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_super_resolution.json

Deklipern

 # pass in a configuration file to the training script
python3 train_ssr_unet.py -c config/vctk_base_ssr_unet_declipping.json

Sie können das Protokoll -Verzeichnis für Checkpoints-, Protokollierungs- und Validierungsergebnisse auschecken.

Bewertung (ähnlich der VoiceFixer -Bewertung)

python3 eval_ssr_unet.py  
                    --config  < path-to-the-config-file > 
                    --ckpt  < path-to-the-checkpoint > 
                    --limit_numbers < int-test-only-on-a-few-utterance > 
                    --testset  < the-testset-you-want-to-use >  
                    --description  < describe-this-test >

Zitat

 @misc { liu2021voicefixer ,   
     title = { VoiceFixer: Toward General Speech Restoration With Neural Vocoder } ,   
     author = { Haohe Liu and Qiuqiang Kong and Qiao Tian and Yan Zhao and DeLiang Wang and Chuanzeng Huang and Yuxuan Wang } ,  
     year = { 2021 } ,  
     eprint = { 2109.13731 } ,  
     archivePrefix = { arXiv } ,  
     primaryClass = { cs.SD }  
 }