MB iSTFT VITS with AutoVocoder -Download - MB iSTFT VITS with AutoVocoder -Quellcode -Download

MB iSTFT VITS with AutoVocoder

AI-Quellcode

1.0.0

Herunterladen

MB-ISTFT-Vits mit Autovocoder

Motivation für die Umsetzung

Ausgehend von Vits verbessert MB-ISTFT-Vits die Synthesegeschwindigkeit unter Verwendung der folgenden Techniken:

Strategie zur parallelen Generierung von Mehrfachbörsen-Strategien, indem Sprachsignale in Subband-Signale zerlegt werden
ISTFT -basierter Wellenformerzeugungsprozess

Basierend auf diesem gut gestalteten Framework zielt dieses Repository darauf ab, die Klangqualität und Inferenzgeschwindigkeit mit Autovocoder weiter zu verbessern.
Dieses Repo basiert auf MB-ISTFT-Vits, und die erwarteten Modifikationen und Verbesserungen finden Sie unten:

1. Ersetzen Sie den ISTFTNET-basierten Decoder in autovokoderbasierten Decoder.
2. Verwenden Sie im ISTFT -Betrieb real/imaginär anstelle von Phasen-/Größenkomponenten, um ein komplexes Spektrogramm zu konstruieren. Fügen Sie Zeitdomänenrekonstruktionsverlust hinzu.
1. Überarbeiten Sie den hinteren Encoder, um 4 komplexe Komponenten anstelle des linearen Spektrogramms zu akzeptieren.

Aufgrund der Art von Vits, die leistungsstarke Latenten modelliert, kann der Autovocoder aufgrund seiner Autocoderarchitektur eine ordnungsgemäße Anwendung sein. Außerdem hat es eine schnelle Inferenzgeschwindigkeit, indem sie direkt mit (1024, 256, 1024) FFT/Hop/Win -Größe (1024, 256, 1024) erzeugt wird, ohne dass upsmpling -Module. (Multi-Band-Startegy wird beibehalten)
Herkömmliche TTS -Modelle, einschließlich Vits, Modellierungsphaseninformationen waren vollständig die Rolle eines Decoders (Vocoder). In Mod 3. Durch die Bereitstellung von Phaseninformationen für Latents testen wir, ob zuvor vorhanden diese Latenten zuverlässig sind.

Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

Notiz

Zum einfachen Vergleich haben wir die gesamte Architektur des hinteren Encoders nicht geändert. Stattdessen verwendeten wir nur Gruppenfaltung im vorderen Teil, um überarbeitete Eingaben (4 komplexe Komponenten) zu verarbeiten.
In aktuellem Umfang versucht dieses Repo, MB-ISTFT-Vits-basiertes Modell zu implementieren. Die Anwendung auf Mini, MS, ohne MB könnte zukünftige Arbeit sein.

Erläuterung (aus mb-istft-vits)

0. Grundlinie: MB-ISTFT-Vits

1. Voraussetzungen

Python> = 3,6
Klonen Sie dieses Repository
Installieren Sie die Python -Anforderungen. Bitte beachten Sie die Anforderungen.txt
1. Möglicherweise müssen Sie zuerst Espeak installieren: apt-get install espeak
Datensätze herunterladen
1. Laden Sie den LJ -Sprachdatensatz herunter und extrahieren Sie sie und erstellen Sie dann einen Link zum Datensatzordner: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
Erstellen Sie monotonische Ausrichtungssuche und führen Sie die Vorverarbeitung aus, wenn Sie Ihre eigenen Datensätze verwenden.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplace

2. Training

Führen Sie im Fall von MB-ISTFT-Vits-Training das folgende Skript aus

python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits

Nach dem Training können Sie Inferenz -Audio mit Inference.ipynb überprüfen

Referenzen

MB-ISTFT-Vits: Papier / Code
Autovocoder: Papier / Code (inoffiziell)

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-09-14
Größe 5.02MB
Kommt von Github

Ähnliche Anwendungen

MB Lab

2024-11-12
gefangen mit Jester

2024-02-23
RPG Maker MIT

2024-02-23
Mit meiner Vergangenheit

2024-02-21
Text mit Jesus

2023-08-17
Mit der Schubkarre klettern

2022-08-26

MB iSTFT VITS with AutoVocoder

MB-ISTFT-Vits mit Autovocoder

Motivation für die Umsetzung

Notiz

Erläuterung (aus mb-istft-vits)

0. Grundlinie: MB-ISTFT-Vits

1. Voraussetzungen

2. Training

Referenzen

MB Lab

gefangen mit Jester

RPG Maker MIT

Mit meiner Vergangenheit

Text mit Jesus

Mit der Schubkarre klettern

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express