تنزيل zerovox - تنزيل رمز المصدر zerovox

zerovox

كود الذكاء الاصطناعي

1.0.0

تنزيل

Zerovox: نظام TTS في الوقت الفعلي صفريًا ، غير متصل بالكامل ، مجاني ومفتوح المصدر

Zerovox هو نظام نص إلى كلام (TTS) تم تصميمه للاستخدام في الوقت الفعلي والمدمج.

يعمل Zerovox في وضع عدم الاتصال تمامًا ، مما يضمن الخصوصية والاستقلال عن الخدمات السحابية. إنه مجاني ومفتوح المصدر تمامًا ، يدعو إلى مساهمات واقتراحات المجتمع.

تم تصميم Zerovox على غرار Fastspeech2 ، خطوة إلى الأمام مع استنساخ مكبر الصوت صفريًا ، باستخدام الرموز الرموز العالمية على النمط العالمي (GST) وتطبيع الطبقة الشرطية للسماعات (SCLN) لتضمين مكبر الصوت الفعال. يدعم النظام توليد الكلام الإنجليزي والألماني من نموذج واحد ، تم تدريبه على مجموعة بيانات واسعة النطاق. يعتبر Zerovox قواميس النطق المستندة إلى الصوتية لضمان توضيح الكلمات الدقيقة ، باستخدام قاموس CMU للغة الإنجليزية وقاموس مخصص للألمانية من مشروع Zamiaspeech حيث ينشأ مجموعة Phoneme أيضًا.

يمكن أن يكون Zerovox بمثابة الواجهة الخلفية لـ TTS لـ LLMs ، مما يتيح التفاعلات في الوقت الفعلي ، وكصنعة TTS سهلة التثبيت لأنظمة الأتمتة المنزلية مثل Home Assistant. نظرًا لأنه غير آخذ في الاعتبار مثل Fastspeech2 ، من السهل بشكل عام التحكم في إنتاجه.

الترخيص: Zerovox هو Apache 2 مرخص له مع العديد من الأجزاء التي تم الاستفادة منها من مشاريع أخرى (انظر قسم الاعتمادات أدناه) بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.

العرض التوضيحي

يرجى ملاحظة: لا يزال النموذج في مرحلة ألفا ولا يزال التدريب.

https://huggingface.co/Spaces/goooofy/zerovox-demo

احصائيات الصوتية

احصائيات مجموعة تدريب Zerovox الحالية:

 german  audio corpus: 16679 speakers, 475.3 hours audio
english audio corpus: 19899 speakers, 358.7 hours audio

تدريب نموذج Zerovox

إعداد البيانات

(1/5) إعداد Corpus Yamls:

 pushd configs/corpora/cv_de_100
./gen_cv.sh
popd

(2/5) إعداد المحاذاة:

 utils/prepare_align.py configs/corpora/cv_de_100

(3/5) OOVS:

 utils/oovtool.py -a -m zerovox-g2p-autoreg-zamia-de configs/corpora/cv_de_100

(4/5) المحاذاة:

 utils/align.py --kaldi-model=tts_de_kaldi_zamia_4 configs/corpora/cv_de_100

(5/5) المعالجة المسبقة:

 utils/preprocess.py configs/corpora/cv_de_100

TTS النموذج التدريب

 utils/train_tts.py 
    --head=2 --reduction=1 --expansion=2 --kernel-size=5 --n-blocks=3 --block-depth=3 
    --accelerator=gpu --threads=24 --batch-size=32 --val_epochs=8 
    --infer-device=cpu 
    --lr=0.0001 --warmup_epochs=25 
    --hifigan-checkpoint=VCTK_V2 
    --out-folder=models/tts_de_zerovox_base_1 
    configs/corpora/cv_de_100 
    configs/corpora/de_hui/de_hui_*.yaml 
    configs/corpora/de_thorsten.yaml

تدريب Kaldi Accoustic Model

 utils/train_kaldi.py --model-name=tts_de_kaldi_zamia_4 --num-jobs=12 configs/corpora/cv_de_100

تدريب نموذج G2P

تشغيل التدريب:

 scripts/train_g2p_de_autoreg.sh

الاعتمادات

استند في الأصل إلى efficientspeech بواسطة Rowel Atienza

https://github.com/roatienza/efficientspeech

 @inproceedings{atienza2023efficientspeech,
  title={EfficientSpeech: An On-Device Text to Speech Model},
  author={Atienza, Rowel},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}

يتم استعارة برنامج تشفير ودلو المشفر السريع (بموجب ترخيص معهد ماساتشوستس للتكنولوجيا) من تنفيذ Chung-Ming Chien لـ Fastspeech2

https://github.com/ming024/fastspeech2

 @misc{ren2022fastspeech2fasthighquality,
    title={FastSpeech 2: Fast and High-Quality End-to-End Text to Speech}, 
    author={Yi Ren and Chenxu Hu and Xu Tan and Tao Qin and Sheng Zhao and Zhou Zhao and Tie-Yan Liu},
    year={2022},
    eprint={2006.04558},
    archivePrefix={arXiv},
    primaryClass={eess.AS},
    url={https://arxiv.org/abs/2006.04558}, 
}

يتم استعارة تطبيق MEL Decoder (بموجب ترخيص معهد ماساتشوستس للتكنولوجيا) من مشروع Tomoki Hayashi's Parallelwavegan:

https://github.com/kan-bayashi/Parallelwavegan تعتمد نماذج محولات G2P على DeeppHonemizer بواسطة Axel Springer News Media & Tech GmbH & Co.

https://github.com/as-ideas/deepphonemizer

 @inproceedings{Yolchuyeva_2019, series={interspeech_2019},
title={Transformer Based Grapheme-to-Phoneme Conversion},
url={http://dx.doi.org/10.21437/Interspeech.2019-1954},
DOI={10.21437/interspeech.2019-1954},
booktitle={Interspeech 2019},
publisher={ISCA},
author={Yolchuyeva, Sevinj and Németh, Géza and Gyires-Tóth, Bálint},
year={2019},
month=sep, pages={2095–2099},
collection={interspeech_2019} }

يتم استعارة ترميز مكبر الصوت القائم على Zeroshot (بموجب ترخيص معهد ماساتشوستس للتكنولوجيا) من Voxceleb_trainer بواسطة Clova AI Research

https://github.com/clovaai/voxceleb_trainer

 @inproceedings{chung2020in,
title={In defence of metric learning for speaker recognition},
author={Chung, Joon Son and Huh, Jaesung and Mun, Seongkyu and Lee, Minjae and Heo, Hee Soo and Choe, Soyeon and Ham, Chiheon and Jung, Sunghwan and Lee, Bong-Jin and Han, Icksang},
booktitle={Proc. Interspeech},
year={2020}
}

@inproceedings{he2016deep,
title={Deep residual learning for image recognition},
author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
booktitle={IEEE Conference on Computer Vision and Pattern Recognition},
pages={770--778},
year={2016}
}

يعتمد التضمين المستند إلى الرموز المميزة لـ Zeroshot Global على GST-Tacotron بواسطة Chengqi Deng (ترخيص MIT)

https://github.com/kinglittleq/gst-tacotron

وهو تطبيق

 @misc{wang2018style,
	  title={Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis},
	  author={Yuxuan Wang and Daisy Stanton and Yu Zhang and RJ Skerry-Ryan and Eric Battenberg and Joel Shor and Ying Xiao and Fei Ren and Ye Jia and Rif A. Saurous},
	  year={2018},
	  eprint={1803.09017},
	  archivePrefix={arXiv},
	  primaryClass={cs.CL}
}

تطبيع الطبقة الشرطية المتحدث (SCLN) الذي يتم استعارة (تحت رخصة معهد ماساتشوستس للتكنولوجيا) من

https://github.com/keonlee9420/cross-speaker-emotion-transfer بواسطة Keon Lee

 @misc{wu2021crossspeakeremotiontransferbased,
    title={Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervised Training in Text-To-Speech}, 
    author={Pengfei Wu and Junjie Pan and Chenchang Xu and Junhui Zhang and Lin Wu and Xiang Yin and Zejun Ma},
    year={2021},
    eprint={2110.04153},
    archivePrefix={arXiv},
    primaryClass={eess.AS},
    url={https://arxiv.org/abs/2110.04153}, 
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-15
الحجم 27.01MB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل