tf_multispeakerTTS_fc Download - tf_multispeakerTTS

tf_multispeakerTTS_fc

كود الذكاء الاصطناعي

1.0.0

تنزيل

تخليق الكلام متعدد النطاقات مع قيود التغذية المرتدة من المتحدث

هذا هو تطبيق Tensorflow لشبكة TTS متعددة الأدوات التي تم تقديمها في الورق من التحقق من السماعات إلى تخليق الكلام متعدد النطاقات ، ونقل عميق مع قيود التعليقات. يحتوي هذا المستودع أيضًا على نموذج التحقق من مكبر الصوت العميق الذي يتم استخدامه في نموذج TTS متعدد الناطقين كشبكة التغذية المرتدة. يتم توفير عينات توليف عبر الإنترنت.

اقتباس

 @inproceedings{Cai2020,
  author={Zexin Cai and Chuxiong Zhang and Ming Li},
  title={{From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint}},
  year=2020,
  booktitle={Proc. Interspeech 2020}
}

النموذج العمارة

عندما تكون شبكة تضمين السماعة شبكة تعتمد على Resnet:

تمرين

نموذج التحقق من المتحدثين

يقع نموذج التحقق من السماعة في Directory Deep_Speaker. بشكل افتراضي ، يتم تدريب نموذج التحقق من السماعات باستخدام Data Voxceleb 1 و Voxceleb 2. يمكنك العثور على قائمة الملفات في الدليل. يتم تعيين Hyperparameters في Vox12_hparams.py.

لتدريب نموذج المتحدث الواقعي من نقطة الصفر ، قم بإعداد البيانات كما هو مدرج في قائمة الملفات وتشغيلها:

CUDA_VISIBLE_DEVICES=0 python train.py

مزج TTS (بدون التحكم في التعليقات)

بشكل افتراضي ، يتم تدريب Synthesizer باستخدام مجموعة البيانات VCTK.

استخراج ميزة الصوت باستخدام process_audio.ipynb
استخراج التضمينات مكبر الصوت باستخدام ipython Notebook deep_speaker/get_gvector.ipynb

قم بتدريب نظام TTS الأساسي Multispeaker

CUDA_VISIBLE_DEVICES=0 python synthesizer_train.py vctk datasets/vctk/synthesizer

لا تتردد في تقييم العينات وتوليفها باستخدام syn.ipynb أثناء التدريب

الصوت العصبي (ويفرن)

بشكل افتراضي ، يتم تدريب Vocoder أيضًا باستخدام DataSet VCTK. سيكون الأمر سهلاً بعد أن يكون لديك الميزة الصوتية المستخرجة من القسم السابق ( TTS Clothesizer ). للحصول على أداء أفضل ، يرجى استخدام GTA MEL-SPECTROMBER التي تم الحصول عليها بواسطة vocoder_preprocess.py بعد الانتهاء من تدريب المزج.

CUDA_VISIBLE_DEVICES=0 python vocoder_train.py -g --syn_dir datasets/vctk/synthesizer vctk datasets/vctk

مزج TTS مع قيود التغذية المرتدة

اضبط المسار على النموذجين المسبق (نموذج التحقق من السماعات ومزج ملزم Multispeaker) عن طريق تغيير المفاتيح المقابلة في HParams.py.
تدريب النموذج وتقييمه في أي وقت باستخدام Feedback_syn.ipynb
```
CUDA_VISIBLE_DEVICES=0 python fc_synthesizer_train.py
```

نماذج ما قبل

شبكة التضمين المتحدث
مختلط خط الأساس 1 (يستخدم كنموذج مسبق لتدريب التعليقات)
مخلف الأساس 2
مزج TTS مع قيود التغذية المرتدة
Wavernn Vocoder

المراجع والموارد

Rayhane-Mamah/ Tacotron-2
Corentinj/ في الوقت الحقيقي-ترتيب الصناديق
لوادر البيانات أثناء الطيران والتجميع على مستوى الكلام للتحدث والتعرف على اللغة
تخليق TTS الطبيعي عن طريق تكييف Wavenet على تنبؤات طيفية MEL
تخليق الصوت العصبي الفعال

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-24
الحجم 70.08MB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
محرك تحليل البيانات Lihua الإصدار المجاني 3.0_search_navigation_collection_public Oplic_ranking_api

2022-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل