Zerovox هو نظام نص إلى كلام (TTS) تم تصميمه للاستخدام في الوقت الفعلي والمدمج.
يعمل Zerovox في وضع عدم الاتصال تمامًا ، مما يضمن الخصوصية والاستقلال عن الخدمات السحابية. إنه مجاني ومفتوح المصدر تمامًا ، يدعو إلى مساهمات واقتراحات المجتمع.
تم تصميم Zerovox على غرار Fastspeech2 ، خطوة إلى الأمام مع استنساخ مكبر الصوت صفريًا ، باستخدام الرموز الرموز العالمية على النمط العالمي (GST) وتطبيع الطبقة الشرطية للسماعات (SCLN) لتضمين مكبر الصوت الفعال. يدعم النظام توليد الكلام الإنجليزي والألماني من نموذج واحد ، تم تدريبه على مجموعة بيانات واسعة النطاق. يعتبر Zerovox قواميس النطق المستندة إلى الصوتية لضمان توضيح الكلمات الدقيقة ، باستخدام قاموس CMU للغة الإنجليزية وقاموس مخصص للألمانية من مشروع Zamiaspeech حيث ينشأ مجموعة Phoneme أيضًا.
يمكن أن يكون Zerovox بمثابة الواجهة الخلفية لـ TTS لـ LLMs ، مما يتيح التفاعلات في الوقت الفعلي ، وكصنعة TTS سهلة التثبيت لأنظمة الأتمتة المنزلية مثل Home Assistant. نظرًا لأنه غير آخذ في الاعتبار مثل Fastspeech2 ، من السهل بشكل عام التحكم في إنتاجه.
الترخيص: Zerovox هو Apache 2 مرخص له مع العديد من الأجزاء التي تم الاستفادة منها من مشاريع أخرى (انظر قسم الاعتمادات أدناه) بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.
يرجى ملاحظة: لا يزال النموذج في مرحلة ألفا ولا يزال التدريب.
https://huggingface.co/Spaces/goooofy/zerovox-demo
احصائيات مجموعة تدريب Zerovox الحالية:
german audio corpus: 16679 speakers, 475.3 hours audio
english audio corpus: 19899 speakers, 358.7 hours audio
(1/5) إعداد Corpus Yamls:
pushd configs/corpora/cv_de_100
./gen_cv.sh
popd
(2/5) إعداد المحاذاة:
utils/prepare_align.py configs/corpora/cv_de_100
(3/5) OOVS:
utils/oovtool.py -a -m zerovox-g2p-autoreg-zamia-de configs/corpora/cv_de_100
(4/5) المحاذاة:
utils/align.py --kaldi-model=tts_de_kaldi_zamia_4 configs/corpora/cv_de_100
(5/5) المعالجة المسبقة:
utils/preprocess.py configs/corpora/cv_de_100
utils/train_tts.py
--head=2 --reduction=1 --expansion=2 --kernel-size=5 --n-blocks=3 --block-depth=3
--accelerator=gpu --threads=24 --batch-size=32 --val_epochs=8
--infer-device=cpu
--lr=0.0001 --warmup_epochs=25
--hifigan-checkpoint=VCTK_V2
--out-folder=models/tts_de_zerovox_base_1
configs/corpora/cv_de_100
configs/corpora/de_hui/de_hui_*.yaml
configs/corpora/de_thorsten.yaml
utils/train_kaldi.py --model-name=tts_de_kaldi_zamia_4 --num-jobs=12 configs/corpora/cv_de_100
تشغيل التدريب:
scripts/train_g2p_de_autoreg.sh
استند في الأصل إلى efficientspeech بواسطة Rowel Atienza
https://github.com/roatienza/efficientspeech
@inproceedings{atienza2023efficientspeech,
title={EfficientSpeech: An On-Device Text to Speech Model},
author={Atienza, Rowel},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
يتم استعارة برنامج تشفير ودلو المشفر السريع (بموجب ترخيص معهد ماساتشوستس للتكنولوجيا) من تنفيذ Chung-Ming Chien لـ Fastspeech2
https://github.com/ming024/fastspeech2
@misc{ren2022fastspeech2fasthighquality,
title={FastSpeech 2: Fast and High-Quality End-to-End Text to Speech},
author={Yi Ren and Chenxu Hu and Xu Tan and Tao Qin and Sheng Zhao and Zhou Zhao and Tie-Yan Liu},
year={2022},
eprint={2006.04558},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2006.04558},
}
يتم استعارة تطبيق MEL Decoder (بموجب ترخيص معهد ماساتشوستس للتكنولوجيا) من مشروع Tomoki Hayashi's Parallelwavegan:
https://github.com/kan-bayashi/Parallelwavegan تعتمد نماذج محولات G2P على DeeppHonemizer بواسطة Axel Springer News Media & Tech GmbH & Co.
https://github.com/as-ideas/deepphonemizer
@inproceedings{Yolchuyeva_2019, series={interspeech_2019},
title={Transformer Based Grapheme-to-Phoneme Conversion},
url={http://dx.doi.org/10.21437/Interspeech.2019-1954},
DOI={10.21437/interspeech.2019-1954},
booktitle={Interspeech 2019},
publisher={ISCA},
author={Yolchuyeva, Sevinj and Németh, Géza and Gyires-Tóth, Bálint},
year={2019},
month=sep, pages={2095–2099},
collection={interspeech_2019} }
يتم استعارة ترميز مكبر الصوت القائم على Zeroshot (بموجب ترخيص معهد ماساتشوستس للتكنولوجيا) من Voxceleb_trainer بواسطة Clova AI Research
https://github.com/clovaai/voxceleb_trainer
@inproceedings{chung2020in,
title={In defence of metric learning for speaker recognition},
author={Chung, Joon Son and Huh, Jaesung and Mun, Seongkyu and Lee, Minjae and Heo, Hee Soo and Choe, Soyeon and Ham, Chiheon and Jung, Sunghwan and Lee, Bong-Jin and Han, Icksang},
booktitle={Proc. Interspeech},
year={2020}
}
@inproceedings{he2016deep,
title={Deep residual learning for image recognition},
author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
booktitle={IEEE Conference on Computer Vision and Pattern Recognition},
pages={770--778},
year={2016}
}
يعتمد التضمين المستند إلى الرموز المميزة لـ Zeroshot Global على GST-Tacotron بواسطة Chengqi Deng (ترخيص MIT)
https://github.com/kinglittleq/gst-tacotron
وهو تطبيق
@misc{wang2018style,
title={Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis},
author={Yuxuan Wang and Daisy Stanton and Yu Zhang and RJ Skerry-Ryan and Eric Battenberg and Joel Shor and Ying Xiao and Fei Ren and Ye Jia and Rif A. Saurous},
year={2018},
eprint={1803.09017},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
تطبيع الطبقة الشرطية المتحدث (SCLN) الذي يتم استعارة (تحت رخصة معهد ماساتشوستس للتكنولوجيا) من
https://github.com/keonlee9420/cross-speaker-emotion-transfer بواسطة Keon Lee
@misc{wu2021crossspeakeremotiontransferbased,
title={Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervised Training in Text-To-Speech},
author={Pengfei Wu and Junjie Pan and Chenchang Xu and Junhui Zhang and Lin Wu and Xiang Yin and Zejun Ma},
year={2021},
eprint={2110.04153},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2110.04153},
}