CDFSE_FastSpeech2 Download - CDFSE_FastSpeech2 Quellcode Download

CDFSE_FastSpeech2

AI-Quellcode

1.0.0

Herunterladen

CDFSE_fastspeech2

Dieses Repo enthält Code, der das Papier "Inhaltsabhängige feinkörnige Lautsprecher einbettet, für die Anpassung von Null-Shot-Lautsprechern in der Text-zu-Sprach-Synthese einbettet", die basierend auf Ming024/Fastspeech2 implementiert ist (viel Dank!).

2022-06-15 UPDATE: Diese Arbeit wurde in Interspeech 2022 akzeptiert.

Proben | Papier

Verwendung

0. Datensatz

Mandarin: Aishell3
Englisch: Libritts

1. Umgebungsaufbau

pip3 install -r requirements.txt

2. Datenvorverarbeitung

Weitere Informationen finden Sie in Ming024/Fastspeech2.

Zum Beispiel,

Erster Lauf

python3 prepare_align.py config/AISHELL3/preprocess.yaml

Laden Sie dann Textgrid -Dateien herunter oder verwenden Sie MFA, um den Korpus auszurichten, und geben Sie Textgrid -Dateien in Ihre [vorverarbeitete_Data_Path] wie vorverarbeitete_Data/Aishell3/textGrid/ein.
Führen Sie schließlich das Vorverarbeitungsskript aus

python3 preprocess.py config/AISHELL3/preprocess.yaml

Zusätzlich:

Wir haben den Zug-, VAL- und Testsets in präprozed_data/[dataset]/*geteilt. Sie können sie also nach der Datenpräzessierung direkt in Ihre [vorverarbeitete_data_path] einfügen oder selbst neu spendeten.
Wir haben "speakerFile_dict.json" in präprozed_data/[dataset]/* bereitgestellt (verwendet in Dataset.py zum zufälligen Laden von Referenzreden), und Sie können sie mit generate_speakerFiledict.py generieren.
Wir haben einige vorab vorbereitete Parameter in Hifigan/vorab/ *bereitgestellt.

3. Training

Trainieren Sie das Modell

python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Bekannt: Wenn Sie feststellen, dass der PHNCLS -Verlust nicht nach unten tendiert oder nicht spürbar ist, versuchen Sie es manuell, die Symboldiktate in Text/Symbolen manuell anzupassen.

(Optional) Verwenden Sie Tensorboard

tensorboard --logdir output/log/AISHELL3

4. Inferenz

Für Batch

python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Für Single

 # For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室，聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml 
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Implementierungsaktualisierungen

(2022-06-20) Die Normalisierung der Instanz wird im MEL-Inhaltscodierer für eine bessere Leistung übernommen.
(2022-06-01) Unterstützung der englischen Einstellung: Libritts Multi-Sprecher-Datensatz (Zug-Clean-100 + Dev-Clean + Test-Clean).
(2022-04-27) Unterstützung direkt unter Verwendung von WavFile (*.WAV) als Referenzrede anstelle einer melspektrogrammieren Numpy-Datei im Einzelmodus.

Referenzen

Ming024/Fastspeech2
Jik876/Hifigan

Zitat

 @misc{zhou2022content,
  title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis}, 
  author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
  year={2022},
  eprint={2204.00990},
  archivePrefix={arXiv},
  primaryClass={eess.AS}
}

Expandieren

Zusätzliche Informationen