WavThruVec_pytorch download - WavThruVec_pytorch Quellcode Download

WavThruVec_pytorch

AI-Quellcode

1.0.0

Herunterladen

Wavthruvec Pytorch

Eine inoffizielle Implementierung von Wavthruvec basierend auf Pytorch.

Das Originalpapier ist Wavthruvec: Latente Sprachrepräsentation als Zwischenmerkmale für die neuronale Sprachsynthese

Architektur

Das Text2VEC -Modell folgt hauptsächlich der Fastspeech -Architektur (XCMYZ). Ich habe das Modell modifiziert, hauptsächlich basierend auf Rad-TTs (NVIDIAs). Und ich füge einen ECAPA_TDNN als Lautsprecher-Encoder für Multi-Sprecher-Zustand hinzu.

Für weitere im Papier nicht erwähnte Details folge ich auch den Rad-TTs.

Der VEC2WAV basiert hauptsächlich auf dem Hifi-Gan und führt eine bedingte Chargennormalisierung ein, um das Netzwerk am Einbettung des Sprechers zu stimmen. Die Up -Beispiel -Ratensequenz ist (5,4,4,2,2), sodass der Upsampling -Faktor ist $ mal 320 $ (Originalpapier ist $ mal 640 $ ) Mit anderen Worten, die erzeugten WAVs haben eine Stichprobenrate von 16 kHz (32 kHz im Originalpapier).

text2Vec Training

text2Vec Inferenz

VEC2WAV

Eingang

Für Text:

Verwenden Sie keine regelbasierten Textnormalisierung oder Phonemisierungsmethoden, sondern füttern Sie RAW-Zeichen und verwandeln Sie sich als Eingaben in Text-Embedding.

für Audio:

Verwenden Sie die Ausgabe von WAV2VEC 2.0 als WAV -Funktion (anstelle von MEL -Spektrogram) mit einem DTYPE von 'float32' und einer Form von (batch_size, n_frame, n_channel) .

HINWEIS: N_Channel = 768 oder 1024, es hängt davon ab, welche Version des von Ihnen verwendeten WAV2VEC 2.0-Modells, da Tencentgamemate ein FairSeq-Version (768) und die Huggingface-Version (1024) liefert. Diese beiden Versionen hat eine andere Ausgangsform.

WAV2VEC 2.0 Presented

Aus diesem Repository WAV2VEC2.0 (chinesischer Sprachvorbereitung) und kann auch bei Huggingface gefunden werden

attn_prior

Einer der größten Unterschiede zwischen Wavthruvec und Fastspeech ist das monotonische Ausrichtungssuchmodul (MAS) (siehe alignment.py ).

In Fastspeech enthalten die Trainingseingaben die Ausrichtung des Lehrers für MEL-Frames und Text-Token. Insbesondere besteht die Verwendung von MFA, um die duration der MEL -Rahmen für jeden Text -Token vor dem Training zu generieren.

Während in Wavthruvc wird die duration unter Verwendung des MAS von den rad-tts erzeugt und in den Langermaterial (Dauerpredictor) eingespeist.

Gemäß der monotonischen Ausrichtungssuche und der RAD-TTS-Implementierung würden nach dem Training des Modells Align-Pro-Prior-Dateien unter './data/align_prior' Verzeichnis mit dem Dateinamenformat von {n_token}_{n_feat}_prior.pth generiert.

Umfeld

CUDA 10.1
Python 3.9.7
Torch 1.8.1+Cu101
Torch-Optimizer 0.3.0
Torchaudio 0,8.1
Tensorboard 2.12.0
Librosa 0,8.0
Numba 0,56,4
Numpy 1.22.4
LLVMLITE 0.39.1

Datensatz und vorbereiten

Aishell3

Die prepe_data.py:

1. Lesen Sie die WAV -Dateien und WAV2VEC2 -Vorgeborenen, proben Sie die WAVs auf 16 kHz erneut und konvertieren Sie sie in .NPY -Dateien, die der entsprechenden WAV2VEC 2.0 -Funktion widersprechen.
2. Lesen Sie die Aishell3 -Transkription (Content.txt) und filtern Sie das chinesische Phonem und leer. Nehmen Sie den Transkriptions- und Dateipfad, um die Zugliste (./ Data/Enc_train.txt) zu erstellen.
3. Bauen Sie das Vokab, mit dem die Zeichen in die Variable der Fackel umwandelt werden.

Preped_data.py nehmen Sie beispielsweise nur ein paar Lautsprecher und ein paar WAV -Dateien.

Ausbildung

Wavthruvec -Gegenden 2 Komponenten: Text2VEC (Encoder) und VEC2WAV (Decoder), und sie trainieren unabhängig

Somit habe ich sie in zwei separate Dires platziert und jeweils unterschiedliche Trainingskonfigurationen verwendet.

Tensorboard

Die Tensorboard -Logger werden im Verzeichnis run/{log_seed}/tb_logs gespeichert. Nehmen wir an, log_seed=1 , Sie können diesen Befehl verwenden, um das Tensorboard auf Ihrem Localhost zu bedienen.

 tensorboard --logdir run/1/tb_logs

Scheckpunkt speichern und wiederherstellen

Die Modell -Checkpoints werden im Verzeichnis run/{log_seed}/model_new gespeichert.

Angenommen, Sie speichern alle 10000 Iterationen und haben jetzt einen Checkpoint checkpoint_10000.pth.tar . Wenn Sie das Training bei step 10000 neu starten müssen, verwenden Sie diesen Befehl.

 python ./text2vec/train.py --restore_step 10000

Todo

Experiment & Performace
Weitere Details zur Implementierung

Referenz

Repository

Fastspeech (xcmyz)
WAV2VEC2.0 (chinesische Sprachvorbereitung)
rad-tts (nvidia)
gan-tts (yanggeng1995)
Hifi-Gan
Fastpitch (Dan-Wells ')
ecapa_tdnn (tao ruijies)
ECAPA_TDNN (Lawlict's)
Glow-tts (Jaywalnut310)

Papier

Fastspeech
Fastspeech2
Hifi-Gan
Wav2Vec
rad-tts
Monotonische Ausrichtungsuche

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-09-14
Größe 892.77KB
Kommt von Github

Ähnliche Anwendungen

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Lihua Datenanalyse-Engine, kostenlose Version 3.0_search_navigation_collection_public Opinion_Ranking_api

2022-06-28

WavThruVec_pytorch