zerovox Download - zerovox Quellcode Download

zerovox

AI-Quellcode

1.0.0

Herunterladen

Zerovox: Ein TTS-System mit Null-Shot-TTS, vollständig offline, kostenlos und Open Source

Zerovox ist ein TTS-System (Text-to-Speech) für Echtzeit und eingebettete Verwendung.

Zerovox läuft vollständig offline und stellt die Privatsphäre und Unabhängigkeit von Cloud -Diensten sicher. Es ist völlig kostenlos und Open Source, und lädt Community -Beiträge und Vorschläge ein.

Modell, das nach Fastspeech22 modelliert wurde, geht mit dem Klonen von Null-Shot-Lautsprechern einen Schritt weiter und nutzt globale Token (GST) und Lautsprecher-Normalisierung der Schicht (SCLN) für eine effektive Lautsprechereinbettung. Das System unterstützt sowohl die englische als auch die deutsche Sprachgenerierung von einem einzigen Modell, das auf einem umfangreichen Datensatz trainiert wird. Zerovox basiert auf phonembasiertem und nutzenden Aussprachewörterbüchern, um eine genaue Artikulation der Wortkompetenz zu gewährleisten, wobei das CMU-Wörterbuch für Englisch und ein kundenspezifisches Wörterbuch für Deutsch aus dem Zamiaspeech-Projekt verwendet wird, von dem auch der verwendete Phonem-Set stammt.

Zerovox kann als TTS-Backend für LLMs dienen und in Echtzeitinteraktionen und als leicht zu installierendes TTS-System für Heimautomationssysteme wie Home Assistant dienen. Da es nicht autoregressiv ist wie Fastspeech22, ist seine Ausgabe im Allgemeinen leicht zu kontrollieren und vorhersehbar.

Lizenz: Zerovox ist apache 2 lizenziert mit vielen Teilen, die aus anderen Projekten (siehe Abschnitt Credits unten) unter MIT -Lizenz genutzt wurden.

Demo

Bitte beachten Sie: Das Modell befindet sich noch in der Alpha -Bühne und Training.

https://huggingface.co/spaces/gooooofy/zerovox-demo

Audio Corpus -Statistiken

Aktuelle Zerovox -Trainingskorpus -Statistiken:

 german  audio corpus: 16679 speakers, 475.3 hours audio
english audio corpus: 19899 speakers, 358.7 hours audio

Zerovox -Modelltraining

Datenvorbereitung

(1/5) Corpus Yamls vorbereiten:

 pushd configs/corpora/cv_de_100
./gen_cv.sh
popd

(2/5) Ausrichtung erstellen:

 utils/prepare_align.py configs/corpora/cv_de_100

(3/5) OOVs:

 utils/oovtool.py -a -m zerovox-g2p-autoreg-zamia-de configs/corpora/cv_de_100

(4/5) Ausrichtung:

 utils/align.py --kaldi-model=tts_de_kaldi_zamia_4 configs/corpora/cv_de_100

(5/5) Präprozess:

 utils/preprocess.py configs/corpora/cv_de_100

TTS -Modelltraining

 utils/train_tts.py 
    --head=2 --reduction=1 --expansion=2 --kernel-size=5 --n-blocks=3 --block-depth=3 
    --accelerator=gpu --threads=24 --batch-size=32 --val_epochs=8 
    --infer-device=cpu 
    --lr=0.0001 --warmup_epochs=25 
    --hifigan-checkpoint=VCTK_V2 
    --out-folder=models/tts_de_zerovox_base_1 
    configs/corpora/cv_de_100 
    configs/corpora/de_hui/de_hui_*.yaml 
    configs/corpora/de_thorsten.yaml

Kaldi Accustic Model Training

 utils/train_kaldi.py --model-name=tts_de_kaldi_zamia_4 --num-jobs=12 configs/corpora/cv_de_100

G2P -Modelltraining

Training laufen:

 scripts/train_g2p_de_autoreg.sh

Credits

Ursprünglich auf Effizienzspeech von Rowel Atienza basiert

https://github.com/roatienza/efficientSpeech

 @inproceedings{atienza2023efficientspeech,
  title={EfficientSpeech: An On-Device Text to Speech Model},
  author={Atienza, Rowel},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}

Der Fastspeech2-Encoder und der Decoder werden aus Chung-Ming Chiens Implementierung von Fastspeech2 ausgeliehen (unter MIT-Lizenz) entliehen (unter MIT-Lizenz)

https://github.com/ming024/fastspeech2

 @misc{ren2022fastspeech2fasthighquality,
    title={FastSpeech 2: Fast and High-Quality End-to-End Text to Speech}, 
    author={Yi Ren and Chenxu Hu and Xu Tan and Tao Qin and Sheng Zhao and Zhou Zhao and Tie-Yan Liu},
    year={2022},
    eprint={2006.04558},
    archivePrefix={arXiv},
    primaryClass={eess.AS},
    url={https://arxiv.org/abs/2006.04558}, 
}

Die Mel Decoder -Implementierung wird aus dem Parallelwavegan -Projekt von Tomoki Hayashi ausgeliehen (unter MIT -Lizenz):

https://github.com/kan-bayashi/parallelwavegan Die G2P -Transformer -Modelle basieren auf Deepphonemizer von Axel Springer Nachrichtenmedien & Tech Gmbh & Co. KG - Ideas Engineering (MIT -Lizenz)

https://github.com/as-ideas/deepphonemizer

 @inproceedings{Yolchuyeva_2019, series={interspeech_2019},
title={Transformer Based Grapheme-to-Phoneme Conversion},
url={http://dx.doi.org/10.21437/Interspeech.2019-1954},
DOI={10.21437/interspeech.2019-1954},
booktitle={Interspeech 2019},
publisher={ISCA},
author={Yolchuyeva, Sevinj and Németh, Géza and Gyires-Tóth, Bálint},
year={2019},
month=sep, pages={2095–2099},
collection={interspeech_2019} }

Die Zeroshot Resnet -basierte Sprecherincodierung wird von Clova AI Research von Voxceleb_Trainer ausgeliehen (unter MIT -Lizenz) ausgeliehen (unter MIT -Lizenz)

https://github.com/clovaai/voxceleb_trainer

 @inproceedings{chung2020in,
title={In defence of metric learning for speaker recognition},
author={Chung, Joon Son and Huh, Jaesung and Mun, Seongkyu and Lee, Minjae and Heo, Hee Soo and Choe, Soyeon and Ham, Chiheon and Jung, Sunghwan and Lee, Bong-Jin and Han, Icksang},
booktitle={Proc. Interspeech},
year={2020}
}

@inproceedings{he2016deep,
title={Deep residual learning for image recognition},
author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
booktitle={IEEE Conference on Computer Vision and Pattern Recognition},
pages={770--778},
year={2016}
}

Die Zeroshot Global Style Tokens-basierte Lautsprechereinbettung basiert auf GST-Tacotron von Chengqi Deng (MIT-Lizenz)

https://github.com/kinglittleq/gst-tacotron

Welches ist eine Implementierung von

 @misc{wang2018style,
	  title={Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis},
	  author={Yuxuan Wang and Daisy Stanton and Yu Zhang and RJ Skerry-Ryan and Eric Battenberg and Joel Shor and Ying Xiao and Fei Ren and Ye Jia and Rif A. Saurous},
	  year={2018},
	  eprint={1803.09017},
	  archivePrefix={arXiv},
	  primaryClass={cs.CL}
}

Lautsprecher -Normalisierung der Schichtnormalisierung (SCLN), die ausgeliehen (unter MIT -Lizenz) aus geliehen wird

https://github.com/keonlee9420/crossspeaker-emotion-transfer von Keon Lee

 @misc{wu2021crossspeakeremotiontransferbased,
    title={Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervised Training in Text-To-Speech}, 
    author={Pengfei Wu and Junjie Pan and Chenchang Xu and Junhui Zhang and Lin Wu and Xiang Yin and Zejun Ma},
    year={2021},
    eprint={2110.04153},
    archivePrefix={arXiv},
    primaryClass={eess.AS},
    url={https://arxiv.org/abs/2110.04153}, 
}

Expandieren

Zusätzliche Informationen