WG WaveNet Download - WG WaveNet Source Code Download

WG WaveNet

AI-Quellcode

1.0.0

Herunterladen

WG-Wavenet: Echtzeit-Sprachsynthese in Echtzeit ohne GPU

Po-Chun Hsu, Hung-yi Lee

In unserem jüngsten Artikel schlagen wir WG-Wavenet vor, ein schnelles, leichtes und hochwertiges Modell der Wellenformgenerierung. WG-Wavenet besteht aus einem kompakten fließenden Modell und einem Postfilter. Die beiden Komponenten werden gemeinsam trainiert, indem die Wahrscheinlichkeit der Trainingsdaten maximiert und die Verlustfunktionen auf den Frequenzbereiche optimiert werden. Während wir ein fließbasiertes Modell entwerfen, das stark komprimiert ist, erfordert das vorgeschlagene Modell im Vergleich zu anderen Modellen der Wellenformgenerierung sowohl während des Trainings als auch während der Inferenzzeit viel weniger rechnerische Ressourcen. Obwohl das Modell stark komprimiert ist, behält der Post-Film die Qualität der erzeugten Wellenform bei. Unsere Pytorch -Implementierung kann mit einem GPU -Speicher von weniger als 8 GB geschult werden und generiert Audio -Proben mit einer Geschwindigkeit von mehr als 5000 kHz bei einer NVIDIA 1080TI -GPU. Selbst wenn wir auf einer CPU synthetisieren, zeigen wir, dass die vorgeschlagene Methode in der Lage ist, 44,1 kHz Sprachwellenform 1,2-mal schneller als Echtzeit zu erzeugen. Experimente zeigen auch, dass die Qualität des generierten Audios mit denen anderer Methoden vergleichbar ist.

Besuchen Sie den Demopage für Audio -Proben.

Todo

Freilassung vorbereitetes Modell.
Kombinieren Sie mit Tacotron2.

Anforderungen

Python> = 3.5.2
Fackel> = 1.4.0
Numpy
Scipy
beizen
Librosa
Tensorboardx

Vorverarbeitung

Ausbildung

Laden Sie die LJ -Rede herunter. In diesem Beispiel befindet es sich in data/
Führen Sie für das Training den folgenden Befehl aus.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >

Führen Sie für das Training mit einem vorbereiteten Modell den folgenden Befehl aus.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >

Führen Sie zur Verwendung von Tensorboard (optional) den folgenden Befehl aus.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs >

Schlussfolgerung

Führen Sie zum Synthese von WAV -Dateien den folgenden Befehl aus.

python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs >

Vorbereitetes Modell

In Arbeit arbeiten.

TTS

Wir werden diesen Vocoder mit Tacotron2 kombinieren. Weitere Informationen und Colab -Demo werden hier veröffentlicht.

Referenzen

Wellenlow von Nvidia
Parallelwavegan von Kan-Bayashi

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-08-22
Größe 13.71KB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
wgcf

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

WG WaveNet

WG-Wavenet: Echtzeit-Sprachsynthese in Echtzeit ohne GPU

Po-Chun Hsu, Hung-yi Lee

Todo

Anforderungen

Vorverarbeitung

Ausbildung

Schlussfolgerung

Vorbereitetes Modell

TTS

Referenzen

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

wgcf

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express