cnn_vocoder DOWNLOAD - cnn_vocoder Quellcode Download

cnn_vocoder

AI-Quellcode

1.0.0

Herunterladen

Cnnvocoder

Hinweis: Ich arbeite nicht mehr an diesem Projekt. Siehe #9.

Ein CNN-basierter Vocoder.

Diese Arbeit wird vom M-CNN-Modell inspiriert, das in der schnellen Spektrogram-Inversion unter Verwendung von mehrköpfigen Faltungsnetzwerken beschrieben wird. Die Autoren zeigen, dass selbst ein einfaches Up-Sampling-Netzwerke ausreicht, um die Wellenform aus Spektrogram/Melspektrogramm zu synthetieren.

In diesem Repo verwende ich die Spektrogrammfunktion für das Trainingsmodell, da es mehr Informationen als Mel-Spektrogram-Funktion enthält. Da die Transformation vom Spektrogramm zum Melspektrogramm nur eine lineare Projektion ist, können Sie im Grunde genommen ein einfaches Netzwerk ausbilden, das Spektrogramm aus dem Melspektogramm vorhersagt. Sie können auch die Parameter ändern, um auch einen Vokoder aus der Melspektogrammfunktion zu trainieren.

Beispiel Audios

Architekturnotizen

Vergleiche mit M-CNN, mein vorgeschlagenes Netzwerk hat einige Unterschiede:

Ich benutze upsampling + konvaillierte Schichten anstelle einer transponierten Schicht. Dies hilft, Checkerboard -Artefakte zu verhindern.
Das Modell verwendet viele Restblöcke vor/nach dem Upsampling -Modul, um das Netzwerk größer/tiefer zu gestalten.
Ich habe nur einen L1-Verlust zwischen der Log-Skale-Stft-Magnitude der vorhergesagten und der Zielwellenform verwendet. Der Bewertungsverlust im Protokollraum ist besser als bei roher Stft-Magnitude, da er dem menschlichen Gefühl über Lautstärke näher kommt. Ich habe versucht, den Verlust der Spektrogrammfunktion zu berechnen, aber es hat nicht viel geholfen.

Anforderungen installieren

$ pip install -r requirements.txt

Trainingsvokoder

1. Vorbereiten Sie den Datensatz

Ich benutze LJSpeech -Datensatz für mein Experiment. Wenn Sie es noch nicht haben, laden Sie den Datensatz bitte herunter und setzen Sie es irgendwo ein.

Danach können Sie den Befehl ausführen, um Datensatz für unser Experiment zu generieren:

$ python preprocessing.py --samples_per_audio 20  
--out_dir ljspeech 
--data_dir path/to/ljspeech/dataset 
--n_workers 4

2. Zug Vocoder

$ python train.py --out_dir ${output_directory}

Weitere Schulungsoptionen finden Sie unter:

$ python train.py --help

Generieren Sie Audio aus dem Spektrogramm

Generieren Sie Spektrogramm aus Audio

$ python gen_spec.py -i sample.wav -o out.npz

Generieren Sie Audio aus dem Spektrogramm

$ python synthesis.py --model_path path/to/checkpoint 
                      --spec_path out.npz 
                      --out_path out.wav

Vorbereitetes Modell

Sie können mein vorgebildetes Modell hier bekommen.

Anerkennung

Diese Implementierung verwendet Code von Nvidia, Ryuichi Yamamoto, Keith Ito, wie in meinem Code beschrieben.

Lizenz

MIT

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-08-21
Größe 2.5MB
Kommt von Github

Ähnliche Anwendungen

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Lihua Datenanalyse-Engine, kostenlose Version 3.0_search_navigation_collection_public Opinion_Ranking_api

2022-06-28

cnn_vocoder

Cnnvocoder

Ein CNN-basierter Vocoder.

Beispiel Audios

Architekturnotizen

Anforderungen installieren

Trainingsvokoder

1. Vorbereiten Sie den Datensatz

2. Zug Vocoder

Generieren Sie Audio aus dem Spektrogramm

Vorbereitetes Modell

Anerkennung

Lizenz

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

YuQue_Book_Download

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

Lihua Datenanalyse-Engine, kostenlose Version 3.0_search_navigation_collection_public Opinion_Ranking_api

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express