vits2_pytorch download - vits2_pytorch Quellcode Download

vits2_pytorch

AI-Quellcode

1.0.0

Herunterladen

Vits2: Verbesserung der Qualität und Effizienz von einstufigen Text-zu-Sprach mit kontroverem Lernen und Architekturdesign

Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim

Inoffizielle Implementierung des Vits2 -Papiers, Fortsetzung von Vits Paper. (Danke an die Autoren für ihre Arbeit!)

ALT -Text

Einstufige Text-zu-Sprache-Modelle wurden in letzter Zeit aktiv untersucht, und ihre Ergebnisse haben zweistufige Pipeline-Systeme übertroffen. Obwohl das vorherige einstufige Modell große Fortschritte erzielt hat, gibt es in Bezug auf die zeitweilige Unnaturalität, die Recheneffizienz und die starke Abhängigkeit von der Phonemkonvertierung Verbesserung. In dieser Arbeit stellen wir Vits2 vor, ein einstufiges Text-zu-Sprach-Modell, das eine natürlichere Sprache effizient synthetisiert, indem sie verschiedene Aspekte der vorherigen Arbeiten verbessern. Wir schlagen verbesserte Strukturen und Trainingsmechanismen vor und präsentieren, dass die vorgeschlagenen Methoden die Natürlichkeit, die Ähnlichkeit der Sprachmerkmale in einem Modell mit mehreren Sprechern und die Effizienz von Training und Inferenz wirksam sind. Darüber hinaus zeigen wir, dass die starke Abhängigkeit von der Phonemumwandlung in früheren Arbeiten mit unserer Methode erheblich reduziert werden kann, was einen vollständig end-toend-einstufigen Ansatz ermöglicht.

Credits

Wir werden dieses Repo basierend auf dem Vits Repo erstellen. Ziel ist es, dieses Modell leichter zu übertragen, das Lernen aus dem vorbereiteten Modell von Vits zu übertragen!
(08-17-2023)-Die Autoren waren wirklich freundlich, mich durch das Papier zu führen und meine Fragen zu beantworten. Ich bin offen, um Änderungen zu besprechen oder Fragen zur Implementierung zu beantworten. Bitte zögern Sie nicht, ein Problem zu eröffnen oder mich direkt zu kontaktieren.

Vorbereitete Kontrollpunkte

Ljspeech-no-sdp (siehe config.yaml in diesem checkpoint-Ordner) | 64k Schritte | Beweis, dass Training funktioniert! Ich würde Experten empfehlen, die CKPTs in *_0.PTH umzubenennen und das Training mithilfe von Transferlernen zu starten. (Ich werde ein Notizbuch dafür in Kürze hinzufügen, um Anpassern zu helfen).
Überprüfen Sie die Seite "Diskussion" für Trainingsprotokolle und Tensorboard -Links und andere Community -Beiträge.

Beispiel Audio

Russisch ausgebildete Modellproben #32. Vielen Dank an @Shigabeev für das Teilen der Proben.
Einige Muster auf nicht einheimischer EN-Datensatzdiskussionsseite. Vielen Dank an @athenasaurav für die Verwendung seiner privaten GPU -Ressourcen und seines Datensatzes!
Beispiele Audio @104K -Schritte hinzugefügt. ljspeech-nosdp; Tensorboard
Vietnamesische Proben dank @ductho9799 für das Teilen!

Voraussetzungen

Python> = 3.10
Getestet auf Pytorch Version 1.13.1 mit Google Colab und Lambdalabs Cloud.
Klonen Sie dieses Repository
Installieren Sie die Python -Anforderungen. Bitte beachten Sie die Anforderungen.txt
1. Möglicherweise müssen Sie zuerst Espeak installieren: apt-get install espeak
Datensätze herunterladen
1. Laden Sie den LJ -Sprachdatensatz herunter und extrahieren Sie sie und erstellen Sie dann einen Link zum Datensatzordner: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. Für die Einstellung von Mult-Sprechern laden Sie den VCTK-Dataset und die Downpample-WAV-Dateien auf 22050 Hz herunter und extrahieren Sie. Benennen Sie dann ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2 Link zum Dataset -Ordner um oder erstellen
Erstellen Sie monotonische Ausrichtungssuche und führen Sie die Vorverarbeitung aus, wenn Sie Ihre eigenen Datensätze verwenden.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

Wie man rennt (trockener)

Model Forward-Pass (Trockenzeit)

 import torch
from models import SynthesizerTrn

net_g = SynthesizerTrn (
    n_vocab = 256 ,
    spec_channels = 80 , # <--- vits2 parameter (changed from 513 to 80)
    segment_size = 8192 ,
    inter_channels = 192 ,
    hidden_channels = 192 ,
    filter_channels = 768 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    resblock = "1" , 
    resblock_kernel_sizes = [ 3 , 7 , 11 ],
    resblock_dilation_sizes = [[ 1 , 3 , 5 ], [ 1 , 3 , 5 ], [ 1 , 3 , 5 ]],
    upsample_rates = [ 8 , 8 , 2 , 2 ],
    upsample_initial_channel = 512 ,
    upsample_kernel_sizes = [ 16 , 16 , 4 , 4 ],
    n_speakers = 0 ,
    gin_channels = 0 ,
    use_sdp = True , 
    use_transformer_flows = True , # <--- vits2 parameter
    # (choose from "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual")
    transformer_flow_type = "fft" , # <--- vits2 parameter 
    use_spk_conditioned_encoder = True , # <--- vits2 parameter
    use_noise_scaled_mas = True , # <--- vits2 parameter
    use_duration_discriminator = True , # <--- vits2 parameter
)

x = torch . LongTensor ([[ 1 , 2 , 3 ],[ 4 , 5 , 6 ]]) # token ids
x_lengths = torch . LongTensor ([ 3 , 2 ]) # token lengths
y = torch . randn ( 2 , 80 , 100 ) # mel spectrograms
y_lengths = torch . Tensor ([ 100 , 80 ]) # mel spectrogram lengths

net_g (
    x = x ,
    x_lengths = x_lengths ,
    y = y ,
    y_lengths = y_lengths ,
)

# calculate loss and backpropagate

Trainingsbeispiel

 # LJ Speech
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base # no-sdp; (recommended)
python train.py -c configs/vits2_ljs_base.json -m ljs_base # with sdp;

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

# for onnx export of trained models
python export_onnx.py --model-path= " G_64000.pth " --config-path= " config.json " --output= " vits2.onnx "
python infer_onnx.py --model= " vits2.onnx " --config-path= " config.json " --output-wav-path= " output.wav " --text= " hello world, how are you? "

Todos, Funktionen und Notizen

Dauerprädiktor (Abb. 1A)

LSTM -Diskriminator zum Dauer -Prädiktor hinzugefügt.
Gegenteiler Verlust des Dauer -Prädiktors hinzugefügt. ("use_duration_discriminator" Flag in der Konfigurationsdatei; Standard ist "true").
Monotonische Ausrichtungssuche mit Gaußschen Lärm hinzugefügt; Möglicherweise benötigen eine Expertenüberprüfung (Abschnitt 2.2)
"Use_noise_scaled_mas" fügte in der Konfigurationsdatei hinzu. Wählen Sie aus wahr oder falsch; Aktualisiert Rauschen während des Trainings basierend auf der Anzahl der Schritte und geht nie unter 0,0
Update models.py/train.py/train_ms.py
Konfigurationsdateien aktualisieren (vits2_vctk_base.json; vits2_ljs_base.json)
Aktualisieren Sie Verluste in Train.py und Train_ms.py

Transformatorblock im Normalisierungsfluss (Abb. 1b)

Transformatorblock zum Normalisierungsfluss hinzugefügt. Es gibt drei Arten von Transformatorblöcken: Vorkonvolution (meine Implementierung), FFT (von SO-Vits-SVC-Repo) und Mono-Schicht.
"Transformer_Flow_Type" in der Konfigurationsdatei hinzugefügt. Wählen Sie aus "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual".
Schichten und Blöcke in Models.
In der Konfigurationsdatei (vits2_ljs_base.json; kann eingeschaltet werden "use_transformer_flows" eingeschaltet werden.

Sprecher-konditionierter Textcodierer (Abb. 1c)

Lautsprecher, die in den Text Encoder in Models einbettet.
In der Konfigurationsdatei hinzufügen (vits2_ljs_base.json; kann eingeschaltet werden, indem "gebrauchen_spk_conditioned_encoder" -Flag) eingeschaltet werden kann.

MEL -Spektrogram -Posterior -Encoder (Abschnitt 3)

Mel Specrogram Posterior Encoder in Train.py hinzugefügt.py hinzugefügt
Neue Konfigurationsdatei addierte (vits2_ljs_base.json; kann mit "Gebrauch_Mel_Posterior_encoder" eingeschaltet werden.
Aktualisiert 'data_utils.py', um das Flag "Gebrauch_Mel_Posterior_encoder" für Vits2 zu verwenden

Trainingsskripte

Vits2-Flags zum Training.py (Einzelerteilermodell) hinzugefügt.
Fügte Vits2-Flags zu Train_ms.py hinzu (Multi-Sprecher-Modell).

Onnx -Export

Fügen Sie die Unterstützung von OnNX -Exports hinzu.

Gradio Demo

Fügen Sie Gradio Demo Support hinzu.

Besondere Erwähnungen

@erogol für schnelles Feedback und Anleitung. (Bitte überprüfen Sie sein großartiges Coquitts Repo).
@Lexkoro für Diskussionen und helfen Sie beim Prototyp -Training.
@Manmay-Nakhashi für Diskussionen und Hilfe beim Code.
@athenasaurav für das Anbieten von GPU -Unterstützung für das Training.
@W11WO für ONNX -Unterstützung.
@Subarasheese für Gradio UI.

Expandieren

Zusätzliche Informationen