HiFTNet Download - HiFTNet Quellcode Download

HiFTNet

AI-Quellcode

1.0.0

Herunterladen

Hiftnet: Ein schneller qualitativ hochwertiger neuronaler Vokoder mit harmonisch-plus-noise-Filter und umgekehrter Kurzzeit-Fourier-Transformation

Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani

Jüngste Fortschritte bei der Sprachsynthese haben GaN-basierte Netzwerke wie Hifi-Gan und Bigvgan genutzt, um Hochfidelitätswellenformen aus Melspektrogrammen zu erzeugen. Diese Netzwerke sind jedoch rechenintensiv und parameterlastig. ISTFTNET befasst sich mit diesen Einschränkungen, indem es inverse Kurzzeit-Fourier-Transformation (ISTFT) in das Netzwerk integriert und sowohl Geschwindigkeit als auch Parameter-Effizienz erreicht. In diesem Artikel führen wir eine Erweiterung in ISTFTNET ein, die als Hiftnet bezeichnet wird und ein Harmonic-Plus-Noise-Quellfilter in die Zeitfrequenzdomäne enthält, die eine sinusförmige Quelle aus der Grundfrequenz (F0) verwendet, die über ein vorgebildetes F0-Schätzungsnetzwerk abgeleitet wurde. Subjektive Bewertungen zu LJSpeech zeigen, dass unser Modell sowohl ISTFTNET als auch Hifi-Gan erheblich übertrifft und die Leistung auf Bodenwahrheit auf der Ebene erzielt. Hiftnet übertrifft auch Bigvgan-Base auf Libritts für unsichtbare Lautsprecher und erzielt eine vergleichbare Leistung mit Bigvgan, während er viermal schneller ist und nur 1/6 der Parameter ist. Unsere Arbeit setzt einen neuen Benchmark für effiziente, qualitativ hochwertige neuronale Vokodierung und ebnet den Weg für Echtzeitanwendungen, die eine qualitativ hochwertige Sprachsynthese erfordern.

Papier: https://arxiv.org/abs/2309.09493

Audio -Samples: https://hiftnet.github.io/

Überprüfen Sie unsere TTS-Arbeit, die Hiftnet als Sprachdecoder für die Sprachsynthese von Human-Level verwendet: https://github.com/yl4579/styletts2

Voraussetzungen

Python> = 3,7
Klonen Sie dieses Repository:

git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNet

Installieren Sie die Python -Anforderungen:

pip install -r requirements.txt

Ausbildung

python train.py --config config_v1.json --[args]

Für das F0 -Modelltraining finden Sie unter YL4579/PitchExtractor. Dieses Repo enthält ein vorgebildetes F0-Modell auf Libritts. Möglicherweise möchten Sie Ihr eigenes F0-Modell für die beste Leistung ausbilden, insbesondere für lautliche oder nicht sprachliche Daten, da wir festgestellt haben, dass die Genauigkeit der F0-Schätzung für die Vocoder-Leistung von wesentlicher Bedeutung ist.

Schlussfolgerung

Weitere Informationen finden Sie im Notebook Inference.ipynb.

Vorausgebildete Modelle

Sie können das vorgeborene LJspeech-Modell hier und das vorgeborene Libritts-Modell hier herunterladen. Die vorgebauten Modelle enthalten Parameter der Optimierer und Diskriminatoren, die zur Feinabstimmung verwendet werden können.