AdaSpeech Download - AdaSpeech Quellcode Download

AdaSpeech

AI-Quellcode

1.0.0

Herunterladen

Adaspeech: Adaptiver Text zur Sprache für benutzerdefinierte Stimme [WIP]

Inoffizielle Pytorch -Implementierung von Adaspeech.

Notiz:

Ich denke nicht über ein Multi-Sprecher-Anwendungsfall nach, sondern ich konzentriere mich viel mehr auf Single-Lautsprecher.
Ich werde nur die Normnorm Utterance level encoder und die Norm der Phoneme level encoder (die Seele des Adaspeech -Papiers) verwenden, sondern eindeutig die adaptive Natur von Adaspeech einschränken, aber mein Fokus liegt auf der Verbesserung der akustischen Verallgemeinerung der Fastspeech 2 und nicht auf Anpassung.

Zitate

 @misc { chen2021adaspeech ,
      title = { AdaSpeech: Adaptive Text to Speech for Custom Voice } , 
      author = { Mingjian Chen and Xu Tan and Bohan Li and Yanqing Liu and Tao Qin and Sheng Zhao and Tie-Yan Liu } ,
      year = { 2021 } ,
      eprint = { 2103.00993 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { eess.AS }
}

Anforderungen :

Alle in Python 3.6.2 geschriebenen Code.

Pytorch installieren

Vor der Installation von Pytorch überprüfen Sie bitte Ihre CUDA -Version, indem Sie den folgenden Befehl ausführen: nvcc --version

 pip install torch torchvision

In diesem Repo habe ich Pytorch 1.6.0 für torch.bucketize Funktion verwendet, die in früheren Pytorch -Versionen nicht vorhanden ist.

Weitere Anforderungen installieren:

 pip install -r requirements.txt

Um Tensorboard zu verwenden, installieren Sie tensorboard version 1.14.0 separat mit unterstütztem tensorflow (1.14.0)

Für die Vorverarbeitung:

filelists -Ordner enthält MFA -Datensatzdateien (Motreal Force Aligner), sodass Sie den Text für den LJSpeech -Datensatz nicht mit Audio (für die Extraktdauer) ausrichten müssen. Für einen anderen Datensatz folgen Sie den Anweisungen hier. Für andere vorverarbeitende Ausführungsbefehlsbefehl:

 python nvidia_preprocessing.py -d path_of_wavs

Zum Auffinden der Min und Max von F0 und Energie

 python compute_statistics.py

Aktualisieren Sie Folgendes in hparams.py von Min und Max von F0 und Energie

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

Zum Training

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

Notiz

Eine umfassendere und enden -enden -Sprachklone oder Text -To -Sprach -Toolbox (TTS) finden Sie in DeepSyNC -Technologien.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-08-21
Größe 4.13MB
Kommt von Github

Ähnliche Anwendungen

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

AdaSpeech

Adaspeech: Adaptiver Text zur Sprache für benutzerdefinierte Stimme [WIP]

Notiz:

Zitate

Anforderungen :

Für die Vorverarbeitung:

Zum Training

Notiz

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express