vits mandarin biaobei Download - vits mandarin biaobei Quellcode Download

vits mandarin biaobei

AI-Quellcode

1.0.0

Herunterladen

Vits: bedingter Variations-Autoencoder mit kontroversem Lernen für End-to-End-Text-zu-Sprache

Jaehyeon Kim, Jungil Kong und Juhee Sohn

In unserem jüngsten Artikel schlagen wir Vits vor: bedingter Variationsautoencoder mit kontroversem Lernen für End-to-End-Text-zu-Sprach.

Es wurden mehrere aktuelle Modelle für End-to-End-Text-zu-Sprache (TTS) ein einstufiges Training und parallele Stichproben vorgeschlagen, ihre Stichprobenqualität entspricht jedoch nicht der von zweistufigen TTS-Systemen. In dieser Arbeit präsentieren wir eine parallele End-to-End-TTS-Methode, die mehr natürliche Audio als aktuelle zweistufige Modelle erzeugt. Unsere Methode übernimmt eine durch Normalisierungsströme und eines kontroversen Trainingsprozesses verstärkte Variationsinferenz, die die ausdrucksstarke Leistung der generativen Modellierung verbessert. Wir schlagen auch einen stochastischen Dauer -Prädiktor vor, um Sprache mit verschiedenen Rhythmen aus Eingabetxt zu synthetisieren. Mit der Unsicherheitsmodellierung über latente Variablen und dem stochastischen Dauerprädiktor drückt unsere Methode die natürliche Eins-zu-Viele-Beziehung aus, in der ein Texteingang auf verschiedene Arten mit unterschiedlichen Tonhöhen und Rhythmen gesprochen werden kann. Eine subjektive menschliche Bewertung (mittlere Meinungsbewertung oder MOS) in der LJ -Sprache, ein einzelner Sprecher -Datensatz, zeigt, dass unsere Methode die besten öffentlich verfügbaren TTS -Systeme übertrifft und eine MOS erreicht, die mit der Grundwahrheit vergleichbar ist.

Besuchen Sie unsere Demo für Audio -Beispiele.

Wir stellen auch die vorbereiteten Modelle zur Verfügung.

** UPDATE HINWEIS: Dank Rishikesh (ऋषिकेश) ist unsere interaktive TTS -Demo jetzt auf Colab Notebook verfügbar.

Vits beim Training	Vits bei Inferenz

Voraussetzungen

Python> = 3,6
Klonen Sie dieses Repository
Installieren Sie die Python -Anforderungen. Bitte beachten Sie die Anforderungen.txt
1. Möglicherweise müssen Sie zuerst Espeak installieren: apt-get install espeak
Datensätze herunterladen
1. Laden Sie den LJ -Sprachdatensatz herunter und extrahieren Sie sie und erstellen Sie dann einen Link zum Datensatzordner: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. Für die Einstellung von Mult-Sprechern laden Sie den VCTK-Dataset und die Downpample-WAV-Dateien auf 22050 Hz herunter und extrahieren Sie. Benennen Sie dann ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2 Link zum Dataset -Ordner um oder erstellen
Erstellen Sie monotonische Ausrichtungssuche und führen Sie die Vorverarbeitung aus, wenn Sie Ihre eigenen Datensätze verwenden.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

Training exmaple

 # LJ Speech
python train.py -c configs/ljs_base.json -m ljs_base

# VCTK
python train_ms.py -c configs/vctk_base.json -m vctk_base

Inferenzbeispiel

Siehe Inferenz.ipynb

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-08-24
Größe 963.36KB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
WITZ

2024-02-26

vits mandarin biaobei

Vits: bedingter Variations-Autoencoder mit kontroversem Lernen für End-to-End-Text-zu-Sprache

Jaehyeon Kim, Jungil Kong und Juhee Sohn

Voraussetzungen

Training exmaple

Inferenzbeispiel

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

WITZ

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express