deepvoice3_pytorch Download - deepvoice3_pytorch Quellcode Download

deepvoice3_pytorch

AI-Quellcode

v0.1.0 release

Herunterladen

ALT -Text

DeepVoice3_Pytorch

Pytorch-Implementierung von Faltungsnetzwerkenbasierten Text-zu-Sprach-Synthese-Modellen:

ARXIV: 1710.07654: Deep Voice 3: Skalierung von Text-to-Speech mit Faltungssequenzlernen.
ARXIV: 1710.08969: Effizient trainierbares Text-zu-Sprache-System basierend auf tiefen Faltungsnetzen mit geführter Aufmerksamkeit.

Audio -Samples finden Sie unter https://r9y9.github.io/deepvoice3_pytorch/.

Leute

https://github.com/hash2430/dv3_world: DeepVoice3 mit Unterstützung der Welt -Vocoder -Unterstützung. #166

Online -TTS -Demo

Notizbücher sollen auf https://colab.research.google.com ausgeführt werden:

DeepVoice3: Multi-Speaker-Text-zu-Sprache-Demo
DeepVoice3: Eins-Sprecher-Text-zu-Sprache-Demo

Highlights

Faltungssequenz-zu-Sequenz-Modell mit Aufmerksamkeit für die Text-zu-Sprache-Synthese
Multi-Sprecher- und Einzellautsprecherversionen von DeepVoice33
Audioproben und vorgebrachte Modelle
Präprozessor für LJSpeech (EN), JSUT (JP) und VCTK-Datensätze sowie CARPEDM20/Multi-Sprecher-Tacotron-TensorFlow-kompatibler benutzerdefinierter Datensatz (im JSON-Format)
Sprachabhängiger Frontend-Textprozessor für Englisch und Japanisch

Proben

JA Step000380000 vorhergesagt
JA Step000370000 vorhergesagt
Ko_Single Step000410000 vorhergesagt
Ko_Single Step000400000 vorhergesagt
KO_Multi Step001680000 vorhergesagt
KO_Multi Step001700000 vorhergesagt

Vorbereitete Modelle

HINWEIS : Vorbereitete Modelle sind nicht für den Master kompatibel. Bald aktualisiert werden.

URL	Modell	Daten	Hyperparamente	Git Commit	Schritte
Link	Deepvoice3	Ljspeech	Link	ABF0A21	640k
Link	Nyanko	Ljspeech	`builder=nyanko,preset=nyanko_ljspeech`	BA59DC7	585k
Link	Multi-Sprecher Deepvoice3	Vctk	`builder=deepvoice3_multispeaker,preset=deepvoice3_vctk`	0421749	300k + 300k

Um vorgeborene Modelle zu verwenden, wird dringend empfohlen, dass Sie sich auf dem oben angegebenen spezifischen GIT-Commit befinden. dh,,

 git checkout ${commit_hash}

Befolgen Sie dann den Abschnitt "Synthese von einem Checkpoint" im Readme des spezifischen Git -Commits. Bitte beachten Sie, dass die neueste Entwicklungsversion des Repositorys möglicherweise nicht funktioniert.

Sie könnten zum Beispiel versuchen:

 # pretrained model (20180505_deepvoice3_checkpoint_step000640000.pth)
# hparams (20180505_deepvoice3_ljspeech.json)
git checkout 4357976
python synthesis.py --preset=20180505_deepvoice3_ljspeech.json 
  20180505_deepvoice3_checkpoint_step000640000.pth 
  sentences.txt 
  output_dir

Anmerkungen zu Hyperparametern

Standard -Hyperparameter, die während der Vorverarbeitungs-/Trainings-/Synthesestadien verwendet werden, werden für englische TTs unter Verwendung des LJSpeech -Datensatzes gedreht. Sie müssen einige Parameter ändern, wenn Sie andere Datensätze ausprobieren möchten. Weitere Informationen finden Sie unter hparams.py .
builder gibt an, welches Modell Sie verwenden möchten. deepvoice3 , deepvoice3_multispeaker [1] und nyanko [2] sind geworfen.
Hyperparameter, die in DeepVoice3 Paper für Einzelsprecher beschrieben wurden, funktionierten für LJSpeech -Datensatz nicht, also habe ich ein paar Dinge geändert. Fügen Sie eine erweiterte Faltung, mehr Kanäle, mehr Ebenen hinzu und fügen Sie geführte Aufmerksamkeitsverlust usw. hinzu usw. Siehe Code für Details. Die Änderungen werden auch für das Modell mit mehreren Sprechern angewendet.
Mehrere Aufmerksamkeitsschichten sind schwer zu lernen. Empirisch scheinen ein oder zwei (erste und letzte) Aufmerksamkeitsschichten genug zu sein.
Mit geführter Aufmerksamkeit (siehe https://arxiv.org/abs/1710.08969) werden Ausrichtungen schneller und zuverlässig monotonischer und zuverlässig, wenn wir mehrere Aufmerksamkeitsschichten verwenden. Mit geführter Aufmerksamkeit kann ich bestätigen, dass fünf Aufmerksamkeitsebenen monoton werden, obwohl ich keine Verbesserungen der Sprachqualität erhalten kann.
Binäre Divergenz (beschrieben in https://arxiv.org/abs/1710.08969) scheint das Training insbesondere für tiefe (> 10 Schichten) Netzwerke zu stabilisieren.
Adam mit Schritt LR Decay funktioniert. Für tiefere Netzwerke finde ich jedoch, dass der LR -Scheduler von Adam + Noam stabiler ist.

Anforderungen

Python> = 3,5
CUDA> = 8.0
Pytorch> = v1.0.0
nnmnkwii> = v0.0.11
Mecab (nur Japanisch)

Installation

Bitte installieren Sie zuerst die oben aufgeführten Pakete und dann und dann

 git clone https://github.com/r9y9/deepvoice3_pytorch && cd deepvoice3_pytorch
pip install -e ".[bin]"

Erste Schritte

Voreingestellte Parameter

Es gibt viele Hyperparameter, die gedreht werden müssen, abhängig davon, an welchem Modell und Daten Sie arbeiten. Für typische Datensätze und Modelle sind im Repository Parameter bereitgestellt, von denen bekannt ist, dass sie gut funktionieren ( Voreinstellung ). Weitere Informationen finden Sie unter presets Directory. Beachten Sie das

preprocess.py
train.py
synthesis.py

Akzeptiert --preset=<json> Optionaler Parameter, wodurch angeben, wo voreingestellte Parameter geladen werden sollen. Wenn Sie voreingestellte Parameter verwenden, müssen Sie gleiche verwenden --preset=<json> während der gesamten Vorverarbeitung, Schulung und Bewertung. z.B,

 python preprocess.py --preset=presets/deepvoice3_ljspeech.json ljspeech ~/data/LJSpeech-1.0
python train.py --preset=presets/deepvoice3_ljspeech.json --data-root=./data/ljspeech

anstatt

 python preprocess.py ljspeech ~/data/LJSpeech-1.0
# warning! this may use different hyper parameters used at preprocessing stage
python train.py --preset=presets/deepvoice3_ljspeech.json --data-root=./data/ljspeech

0. Download Dataset

Ljspeech (en): https://keithito.com/lj-speech-dataset/
Vctk (en): http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html
JSUT (JP): https://sites.google.com/site/shinnosuketakamichi/publication/jsut
Nikl (KO) ( benötigen koreanische Mobiltelefonnummer, um darauf zuzugreifen ): http://www.korean.go.kr/front/board/boardstandardview.do?board_id=4&mn_id=17&b_seq=464

1. Vorverarbeitung

Verwendung:

 python preprocess.py ${dataset_name} ${dataset_path} ${out_dir} --preset=<json>

Unterstützt ${dataset_name} s sind:

ljspeech (en, Einzellautsprecher)
vctk (EN, Multi-Lautsprecher)
jsut (JP, Einzelsprecher)
nikl_m (KO, Multi-Lautsprecher)
nikl_s (KO, Einzellautsprecher)

Angenommen, Sie verwenden voreingestellte Parameter, von denen bekannt ist, dass sie für LJSpeech-Datensatz/DeepVoice3 gut funktionieren und Daten in ~/data/LJSpeech-1.0 haben, dann können Sie Daten vorbereiten nach:

 python preprocess.py --preset=presets/deepvoice3_ljspeech.json ljspeech ~/data/LJSpeech-1.0/ ./data/ljspeech

In diesem Fall werden extrahierte Merkmale (Melspektrogramme und lineare Spektrogramme) in ./data/ljspeech angezeigt.

1-1. Erstellen von benutzerdefiniertem Datensatz. (mit json_meta)

Derzeit wird derzeit unterstützt, mit Metadaten im JSON-Format (kompatibel mit CARDEDM20/Multi-Sprecher-Tacotron-TensorFlow kompatibel). Verwendung:

 python preprocess.py json_meta ${list-of-JSON-metadata-paths} ${out_dir} --preset=<json>

Möglicherweise müssen Sie die bereits bestehende voreingestellte JSON-Datei, insbesondere n_speakers , ändern. Beginnen Sie für englische Multispeaker mit presets/deepvoice3_vctk.json .

Angenommen, Sie haben Datensatz A (Sprecher A) und Datensatz ./datasets/datasetB/alignment.json (Sprecher B), die jeweils in der JSON -Metadata -Datei beschrieben werden ./datasets/datasetA/alignment.json

 python preprocess.py json_meta "./datasets/datasetA/alignment.json,./datasets/datasetB/alignment.json" "./datasets/processed_A+B" --preset=(path to preset json file)

1-2. Vorverarbeitung benutzerdefinierte englische Datensätze mit langer Stille. (Basierend auf vctk_preprocess)

Einige Datensatze, insbesondere automatisch generierten Datensatz, können lange Stille und unerwünschte Führungs-/Nachverfolgung von Geräuschen umfassen, wodurch das SEQ2SEQ-Modell auf SHAR-Ebene untergräbt. (EG VCTK, obwohl dies in vctk_preprozess behandelt wird)

Um mit dem Problem umzugehen, wird gentle_web_align.py

Bereiten Sie Phonem -Ausrichtungen für alle Äußerungen vor
Schneiden Sie die Stille während der Vorverarbeitung ab

gentle_web_align.py verwendet Gentle, ein Kaldi-basierter Sprach-Text-Alignment-Tool. Dies greift auf Web-Service-Anwendungen auf, die mit Transkripten festgelegte Klangsegmente ausgerichtet und das Ergebnis in Etikettsdateien im HTK-Stil konvertiert, die in preprocess.py verarbeitet werden sollen. Gentle kann in Linux/Mac/Windows (über Docker) ausgeführt werden.

Vorläufige Ergebnisse zeigen, dass die HTK/Festival/Merlin-basierte Methode in vctk_preprocess/prepare_vctk_labels.py bei VCTK besser funktioniert, aber Gentle ist stabiler mit Audioclips mit Umgebungsgeräuschen. (zB Filmauszüge)

Nutzung: (Angenommen, sanft läuft bei localhost:8567 (Standard, wenn nicht angegeben))

Wenn Sounddateien und Transkriptateien in separaten Ordnern gespeichert werden. (EG -Sounddateien finden Sie bei datasetA/wavs und Transkripte finden Sie in datasetA/txts )

 python gentle_web_align.py -w "datasetA/wavs/*.wav" -t "datasetA/txts/*.txt" --server_addr=localhost --port=8567

Wenn Sounddateien und Transkriptatendateien in verschachtelter Struktur gespeichert werden. (zB datasetB/speakerN/blahblah.wav und datasetB/speakerN/blahblah.txt )

 python gentle_web_align.py --nested-directories="datasetB" --server_addr=localhost --port=8567

Sobald Sie für jede Äußerung eine Phonemausrichtung haben, können Sie Funktionen extrahieren, indem Sie preprocess.py ausführen

2. Training

Verwendung:

 python train.py --data-root=${data-root} --preset=<json> --hparams="parameters you may want to override"

Angenommen, Sie erstellen ein DeepVoice3-Modell mit dem LJSpeech-Datensatz im Stil. Dann können Sie Ihr Modell trainieren, indem Sie:

 python train.py --preset=presets/deepvoice3_ljspeech.json --data-root=./data/ljspeech/

Modellkontrollpunkte (.PTH) und Alignments (.png) werden standardmäßig in ./checkpoints -Verzeichnis pro 10000 Schritte gespeichert.

Nikl

Bitte überprüfen Sie dies im Voraus und befolgen Sie die folgenden Befehle.

 python preprocess.py nikl_s ${your_nikl_root_path} data/nikl_s --preset=presets/deepvoice3_nikls.json

python train.py --data-root=./data/nikl_s --checkpoint-dir checkpoint_nikl_s --preset=presets/deepvoice3_nikls.json

4.. Überwachen Sie mit Tensorboard

Protokolle werden standardmäßig in ./log -Verzeichnis abgeladen. Sie können Protokolle per Tensorboard überwachen:

 tensorboard --logdir=log

5. Synthetisieren Sie von einem Kontrollpunkt aus

Bei einer Liste von Text, synthesis.py . Verwendung ist:

 python synthesis.py ${checkpoint_path} ${text_list.txt} ${output_dir} --preset=<json>

Beispiel test_list.txt:

 Generative adversarial network or variational auto-encoder.
Once upon a time there was a dear little girl who was loved by every one who looked at her, but most of all by her grandmother, and there was nothing that she would not have given to the child.
A text-to-speech synthesis system typically consists of multiple stages, such as a text analysis frontend, an acoustic model and an audio synthesis module.

Erweiterte Verwendung

Modell mit mehreren Lautsprechern

VCTK und NIKL werden zum Erstellen eines Multi-Sprecher-Modells unterstützt.

Vctk

Da einige Audio -Proben in VCTK lange Stille aufweisen, die die Leistung beeinflussen, wird empfohlen, die Ausrichtung der Phoneme durchzuführen und die Stille gemäß VCTK_PREPROCESS zu entfernen.

Sobald Sie für jede Äußerung eine Phonemausrichtung haben, können Sie Merkmale extrahieren nach:

 python preprocess.py vctk ${your_vctk_root_path} ./data/vctk

Nachdem Sie Daten vorbereitet haben, können Sie eine Multi-Sprecher-Version von DeepVoice3 trainieren von:

 python train.py --data-root=./data/vctk --checkpoint-dir=checkpoints_vctk 
   --preset=presets/deepvoice3_vctk.json 
   --log-event-path=log/deepvoice3_multispeaker_vctk_preset

Wenn Sie das Erlernen der Einbettung aus einem anderen Datensatz wiederverwenden möchten, können Sie dies stattdessen tun, um:

 python train.py --data-root=./data/vctk --checkpoint-dir=checkpoints_vctk 
   --preset=presets/deepvoice3_vctk.json 
   --log-event-path=log/deepvoice3_multispeaker_vctk_preset 
   --load-embedding=20171213_deepvoice3_checkpoint_step000210000.pth

Dies kann die Trainingsgeschwindigkeit ein wenig verbessern.

Nikl

Sie können aufgeräumte Audio-Proben in ../nikl_proprocoess erhalten. Details finden Sie hier.

Sobald Nikl Corpus von der Vorverarbeitung verwendet werden kann, können Sie Funktionen extrahieren nach:

 python preprocess.py nikl_m ${your_nikl_root_path} data/nikl_m

Nachdem Sie Daten vorbereitet haben, können Sie eine Multi-Sprecher-Version von DeepVoice3 trainieren von:

 python train.py --data-root=./data/nikl_m  --checkpoint-dir checkpoint_nikl_m 
   --preset=presets/deepvoice3_niklm.json

Sprecheranpassung

Wenn Sie nur sehr begrenzte Daten haben, können Sie in Betracht ziehen, um vorausgebildetes Feinschaltmodell auszuprobieren. Beispielsweise können Sie es mit dem vorgeborenen Modell auf LJSpeech an Daten des VCTK-Sprechers p225 (30 Minuten) durch den folgenden Befehl anpassen:

 python train.py --data-root=./data/vctk --checkpoint-dir=checkpoints_vctk_adaptation 
    --preset=presets/deepvoice3_ljspeech.json 
    --log-event-path=log/deepvoice3_vctk_adaptation 
    --restore-parts="20171213_deepvoice3_checkpoint_step000210000.pth"
    --speaker-id=0

Nach meiner Erfahrung kann es sehr schnell angemessene Sprachqualität erhalten, anstatt das Modell von Grund auf neu zu trainieren.

Es werden oben zwei wichtige Optionen verwendet:

--restore-parts=<N> : Es gibt an, wo Modellparameter geladen werden sollen. Die Unterschiede von der Option --checkpoint=<N> sind 1) --restore-parts=<N> ignoriert alle ungültigen Parameter, während --checkpoint=<N> nicht. 2) --restore-parts=<N> Sagen Sie Trainer, er solle von 0 Schritt starten, während --checkpoint=<N> den Trainer aufweisen soll, vom letzten Schritt fortzufahren. --checkpoint=<N> sollte in Ordnung sein, wenn Sie genau das gleiche Modell verwenden und weiter trainieren, aber es wäre nützlich, wenn Sie Ihre Modellarchitektur anpassen und Vorteile eines vorgebliebenen Modells nutzen möchten.
--speaker-id=<N> : Es gibt an, welcher Datensprecher für das Training verwendet wird. Dies sollte nur angegeben werden, wenn Sie einen Datensatz mit mehreren Sprechern verwenden. Für VCTK wird die Sprecher -ID in schrittweisen (0, 1, ..., 107) gemäß dem speaker_info.txt im Datensatz automatisch zugewiesen.

Wenn Sie ein Modell mit mehreren Lautsprechern trainieren, funktioniert die Anpassung der Lautsprecher nur dann, wenn n_speakers identisch ist .

Fehlerbehebung

#5 RunTimeError: Hauptfaden befindet sich nicht in der Hauptschleife

Dies kann je nach Backends für Matplotlib geschehen. Versuchen Sie, das Backend für Matplotlib zu wechseln, und prüfen Sie, ob es wie folgt funktioniert:

 MPLBACKEND=Qt5Agg python train.py ${args...}

In #78 berichtete Engiecat, dass das Wechsel des Backends von Matplotlib von Tkinter (TKAGG) auf PYQT5 (qt5agg) das Problem behoben hat.

Sponsoren

https://github.com/echelon

Anerkennung

Ein Teil des Code wurde aus den folgenden Projekten angepasst:

https://github.com/keithito/tacotron
https://github.com/facebookresearch/fairseq-py

Banner und Logo von @jaulhernandezi (#76) erstellt

Expandieren

Zusätzliche Informationen

Version v0.1.0 release
Typ AI-Quellcode
Aktualisierungszeit 2025-08-21
Größe 6.71MB
Kommt von Github

Ähnliche Anwendungen

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Lihua Datenanalyse-Engine, kostenlose Version 3.0_search_navigation_collection_public Opinion_Ranking_api

2022-06-28