voicefixer Download - voicefixer Quellcode herunterladen

? VoiceFixer
- Demo
- Verwendung
  - Befehlszeile
  - Desktop -App
  - Python -Beispiele
  - Docker
  - Andere Funktionen
- Materialien
- Protokoll ändern

? VoiceFixer

VoiceFixer zielt darauf ab, die menschliche Sprache wiederherzustellen, unabhängig davon, wie ernst sie degradiert ist. Es kann Rauschen, Reveberation, niedrige Auflösung (2kHz ~ 44,1 kHz) und Einschnitten (0,1-1,0 Schwellenwert) innerhalb eines Modells bewältigen.

Dieses Paket enthält:

Ein vorgefertigter Voicefixer , der auf dem neuronalen Vokoder basiert.
Ein vorgefertigter 44,1K universeller sprecherunabhängiger neuronaler Vokoder.

hauptsächlich

Wenn Sie dieses Repo als hilfreich empfanden, sollten Sie zitieren oder zitieren oder

 @misc { liu2021voicefixer ,   
     title = { VoiceFixer: Toward General Speech Restoration With Neural Vocoder } ,   
     author = { Haohe Liu and Qiuqiang Kong and Qiao Tian and Yan Zhao and DeLiang Wang and Chuanzeng Huang and Yuxuan Wang } ,  
     year = { 2021 } ,  
     eprint = { 2109.13731 } ,  
     archivePrefix = { arXiv } ,  
     primaryClass = { cs.SD }  
 }

Demo

Bitte besuchen Sie die Demo -Seite, um anzuzeigen, was VoiceFixer tun kann.

Verwendung

Modi ausführen

Modus	Beschreibung
`0`	Originalmodell (standardmäßig vorgeschlagen)
`1`	Vorverarbeitungsmodul hinzufügen (höhere Frequenz entfernen)
`2`	Zugmodus (könnte manchmal auf ernsthaft verschlechterte reale Sprache funktionieren)
`all`	Führen Sie alle Modi aus - Ausgabe 1 WAV -Datei für jeden unterstützten Modus.

Befehlszeile

Installieren Sie zunächst VoiceFixer über PIP:

pip install git+https://github.com/haoheliu/voicefixer.git

Verarbeiten Sie eine Datei:

 # Specify the input .wav file. Output file is outfile.wav.
voicefixer --infile test/utterance/original/original.wav
# Or specify a output path
voicefixer --infile test/utterance/original/original.wav --outfile test/utterance/original/original_processed.wav

Verarbeiten Sie Dateien in einem Ordner:

voicefixer --infolder /path/to/input --outfolder /path/to/output

Änderungsmodus (der Standardmodus ist 0):

voicefixer --infile /path/to/input.wav --outfile /path/to/output.wav --mode 1

Führen Sie alle Modi aus:

 # output file saved to `/path/to/output-modeX.wav`.
voicefixer --infile /path/to/input.wav --outfile /path/to/output.wav --mode all

Laden Sie die Gewichte nur ohne tatsächliche Verarbeitung vor:

voicefixer --weight_prepare

Für weitere Helferinformationen führen Sie bitte aus:

voicefixer -h

Desktop -App

Demo auf YouTube (danke @justin John)

Installieren Sie VoiceFixer über PIP:

pip install voicefixer

Sie können Audio -Samples auf Ihrem Desktop testen, indem Sie Website ausführen (betrieben von Streamlit)

Klonen Sie zuerst das Repo.

git clone https://github.com/haoheliu/voicefixer.git
cd voicefixer

Euen Bitte stellen Sie für Windows -Benutzer sicher, dass Sie WGet installiert haben und den WGet -Befehl zum Systempfad hinzugefügt haben (danke @Justinjohn0306).

Webseite initialisieren und starten.

 # Run streamlit 
streamlit run test/streamlit.py

Wenn Sie zum ersten Mal ausführen: Die Webseite kann einige Minuten lang für das Herunterladen von Modellen leer bleiben. Sie können das Terminal zum Herunterladen von Fortschritten überprüfen.
Sie können diese Sprachdatei mit geringer Qualität verwenden, die wir für einen Testlauf zur Verfügung gestellt haben. Die Seite nach der Verarbeitung sieht wie folgt aus.

Figur

Für Benutzer aus dem Hauptland China, wenn Sie Schwierigkeiten beim Herunterladen von Checkpoint haben. Sie können alternativ auf 百度网盘 (提取密码: QIS6) auf sie zugreifen. Bitte laden Sie die beiden Checkpoints in den folgenden Ordner herunter.
- Platzieren Sie vf.ckpt in ~/.cache/voiceFixer/Analysis_Module/Checkpoints . (Das "~" repräsentiert Ihr Heimverzeichnis)
- Platzieren modell.ckpt-1490000_trimed.pt in ~/.cache/voiceFixer/synthesis_module/44100 . (Das "~" repräsentiert Ihr Heimverzeichnis)

Python -Beispiele

Installieren Sie zunächst VoiceFixer über PIP:

pip install voicefixer

Führen Sie dann die folgenden Skripte für einen Testlauf aus:

git clone https://github.com/haoheliu/voicefixer.git ; cd voicefixer
python3 test/test.py # test script

Wir erwarten, dass es Ihnen die folgende Ausgabe gibt:

Initializing VoiceFixer...
Test voicefixer mode 0, Pass
Test voicefixer mode 1, Pass
Test voicefixer mode 2, Pass
Initializing 44.1kHz speech vocoder...
Test vocoder using groundtruth mel spectrogram...
Pass

test/test.py enthält hauptsächlich den Test der folgenden zwei APIs:

VoiceFixer.Restore
vocoder.oracle

...

# TEST VOICEFIXER
## Initialize a voicefixer
print ( "Initializing VoiceFixer..." )
voicefixer = VoiceFixer ()
# Mode 0: Original Model (suggested by default)
# Mode 1: Add preprocessing module (remove higher frequency)
# Mode 2: Train mode (might work sometimes on seriously degraded real speech)
for mode in [ 0 , 1 , 2 ]:
    print ( "Testing mode" , mode )
    voicefixer . restore ( input = os . path . join ( git_root , "test/utterance/original/original.flac" ), # low quality .wav/.flac file
                       output = os . path . join ( git_root , "test/utterance/output/output_mode_" + str ( mode ) + ".flac" ), # save file path
                       cuda = False , # GPU acceleration
                       mode = mode )
    if ( mode != 2 ):
        check ( "output_mode_" + str ( mode ) + ".flac" )
    print ( "Pass" )

# TEST VOCODER
## Initialize a vocoder
print ( "Initializing 44.1kHz speech vocoder..." )
vocoder = Vocoder ( sample_rate = 44100 )

### read wave (fpath) -> mel spectrogram -> vocoder -> wave -> save wave (out_path)
print ( "Test vocoder using groundtruth mel spectrogram..." )
vocoder . oracle ( fpath = os . path . join ( git_root , "test/utterance/original/p360_001_mic1.flac" ),
               out_path = os . path . join ( git_root , "test/utterance/output/oracle.flac" ),
               cuda = False ) # GPU acceleration

...

Sie können dieses Repo klonen und versuchen, Test.py im Testordner auszuführen.

Docker

Derzeit wird das Docker -Bild nicht veröffentlicht und muss lokal erstellt werden. Auf diese Weise stellen Sie jedoch sicher, dass Sie es mit der erwarteten Konfiguration ausführen. Die erzeugte Bildgröße beträgt ungefähr 10 GB und dies ist hauptsächlich auf die Abhängigkeiten zurückzuführen, die sich selbst etwa 9,8 GB verbrauchen.

Die Ebene, voicefixer enthält, ist jedoch die letzte zusätzliche Ebene, die einen Umbau macht, wenn Sie die Quellen relativ klein ändern (~ 200 MB gleichzeitig, wenn die Gewichte beim Bildbau aktualisiert werden).

Die Dockerfile kann hier angezeigt werden.

Nach dem Klonen des Repos:

OS agnostisch

 # To build the image
cd voicefixer
docker build -t voicefixer:cpu .

# To run the image
docker run --rm -v " $( pwd ) /data:/opt/voicefixer/data " voicefixer:cpu < all_other_cli_args_here >

# # Example: docker run --rm -v "$(pwd)/data:/opt/voicefixer/data" voicefixer:cpu --infile data/my-input.wav --outfile data/my-output.mode-all.wav --mode all

Wrapper -Skript: Linux und macOS

 # To build the image
cd voicefixer
./docker-build-local.sh

# To run the image
./run.sh < all_other_cli_args_here >

# # Example: ./run.sh --infile data/my-input.wav --outfile data/my-output.mode-all.wav --mode all

Andere Funktionen

Wie benutze ich Ihren eigenen Vocoder wie vorgebildetes Hifi -gan?

Zuerst müssen Sie eine folgende Helferfunktion mit Ihrem Modell schreiben. Ähnlich wie bei der Helferfunktion in diesem Repo: https://github.com/haoheliu/voicefixer/blob/main/voicefixer/vocoder/base.py#l35

    def convert_mel_to_wav(mel):
        " " "
        :param non normalized mel spectrogram: [batchsize, 1, t-steps, n_mel]
        :return: [batchsize, 1, samples]
        " " "
        return wav

Geben Sie dann diese Funktion an VoiceFixer.restore über, zum Beispiel:

 voicefixer.restore(input="", # input wav file path
                   output="", # output wav file path
                   cuda=False, # whether to use gpu acceleration
                   mode = 0,
                   your_vocoder_func = convert_mel_to_wav)

Notiz:

Für die Kompatibilität sollte Ihr Vokoder mit 44,1 kHz Wellen mit Mel Frequency Bins 128 arbeiten.
Das Eingangsmelspektrogramm zur Helferfunktion sollte nicht durch die Breite jedes MEL -Filters normalisiert werden.