Jüngste Fortschritte bei der Sprachsynthese haben GaN-basierte Netzwerke wie Hifi-Gan und Bigvgan genutzt, um Hochfidelitätswellenformen aus Melspektrogrammen zu erzeugen. Diese Netzwerke sind jedoch rechenintensiv und parameterlastig. ISTFTNET befasst sich mit diesen Einschränkungen, indem es inverse Kurzzeit-Fourier-Transformation (ISTFT) in das Netzwerk integriert und sowohl Geschwindigkeit als auch Parameter-Effizienz erreicht. In diesem Artikel führen wir eine Erweiterung in ISTFTNET ein, die als Hiftnet bezeichnet wird und ein Harmonic-Plus-Noise-Quellfilter in die Zeitfrequenzdomäne enthält, die eine sinusförmige Quelle aus der Grundfrequenz (F0) verwendet, die über ein vorgebildetes F0-Schätzungsnetzwerk abgeleitet wurde. Subjektive Bewertungen zu LJSpeech zeigen, dass unser Modell sowohl ISTFTNET als auch Hifi-Gan erheblich übertrifft und die Leistung auf Bodenwahrheit auf der Ebene erzielt. Hiftnet übertrifft auch Bigvgan-Base auf Libritts für unsichtbare Lautsprecher und erzielt eine vergleichbare Leistung mit Bigvgan, während er viermal schneller ist und nur 1/6 der Parameter ist. Unsere Arbeit setzt einen neuen Benchmark für effiziente, qualitativ hochwertige neuronale Vokodierung und ebnet den Weg für Echtzeitanwendungen, die eine qualitativ hochwertige Sprachsynthese erfordern.
Papier: https://arxiv.org/abs/2309.09493
Audio -Samples: https://hiftnet.github.io/
Überprüfen Sie unsere TTS-Arbeit, die Hiftnet als Sprachdecoder für die Sprachsynthese von Human-Level verwendet: https://github.com/yl4579/styletts2
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]Für das F0 -Modelltraining finden Sie unter YL4579/PitchExtractor. Dieses Repo enthält ein vorgebildetes F0-Modell auf Libritts. Möglicherweise möchten Sie Ihr eigenes F0-Modell für die beste Leistung ausbilden, insbesondere für lautliche oder nicht sprachliche Daten, da wir festgestellt haben, dass die Genauigkeit der F0-Schätzung für die Vocoder-Leistung von wesentlicher Bedeutung ist.
Weitere Informationen finden Sie im Notebook Inference.ipynb.
Sie können das vorgeborene LJspeech-Modell hier und das vorgeborene Libritts-Modell hier herunterladen. Die vorgebauten Modelle enthalten Parameter der Optimierer und Diskriminatoren, die zur Feinabstimmung verwendet werden können.