vits mandarin biaobei Download - vits mandarin biaobei Source Code Download

vits mandarin biaobei

كود الذكاء الاصطناعي

1.0.0

تنزيل

Vits: Autoencoder التباين الشرطي مع التعلم العدائي من أجل النص إلى الخطوة إلى النهاية

Jaehyeon Kim و Jungil Kong و Juhee Son

في ورقتنا الحديثة ، نقترح حالات: Autoencoder التباين الشرطي مع التعلم العدائي للرسائل النصية من طرف إلى طرف.

تم اقتراح العديد من نماذج النص إلى الخطوط إلى الخطية (TTS) التي تتيح التدريب أحادي المرحلة وأخذ عينات متوازية ، ولكن جودة عينةها لا تتطابق مع أنظمة TTS على مرحلتين. في هذا العمل ، نقدم طريقة TTS متوازية من طرف إلى طرف تولد صوتًا أكثر طبيعية من النماذج الحالية على مرحلتين. تعتمد طريقتنا الاستدلال المتغير مع زيادة التدفقات التطبيع وعملية التدريب العدواني ، مما يحسن القوة التعبيرية للنمذجة التوليدية. نقترح أيضًا تنبؤًا مدة عشوائية لتوليف الكلام مع إيقاعات متنوعة من نص الإدخال. مع نمذجة عدم اليقين على المتغيرات الكامنة والتنبؤ بالمدة العشوائية ، تعبر طريقتنا عن العلاقة الطبيعية التي يمكن أن يتم فيها التحدث بمدخلات النص بطرق متعددة بطرق وإيقاعات مختلفة. يوضح التقييم الإنساني الذاتي (متوسط درجة الرأي ، أو MOS) في خطاب LJ ، وهو مجموعة بيانات من سماعات واحدة ، أن طريقتنا تتفوق على أفضل أنظمة TTS متوفرة للجمهور ويحقق MOS مماثلة للحقيقة الأرضية.

قم بزيارة العرض التوضيحي الخاص بنا لعينات الصوت.

نحن نقدم أيضا النماذج المسبق.

** تحديث ملاحظة: بفضل Rishikesh (ऋषिकेश) ، يتوفر الآن Demo التفاعلي TTS على دفتر Colab Notebook.

حركات في التدريب	حالات في الاستدلال

المتطلبات المسبقة

بيثون> = 3.6
استنساخ هذا المستودع
تثبيت متطلبات بيثون. يرجى إحالة المتطلبات. txt
1. قد تحتاج إلى تثبيت espeak أولاً: apt-get install espeak
قم بتنزيل مجموعات البيانات
1. قم بتنزيل واستخراج مجموعة بيانات الكلام LJ ، ثم إعادة تسمية أو إنشاء رابط إلى مجلد DataSet: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. لإعدادات Mults-Speaker ، قم بتنزيل واستخراج مجموعة بيانات VCTK ، وملفات WAV Downsample إلى 22050 هرتز. ثم أعد تسمية أو إنشاء رابط إلى مجلد مجموعة البيانات: ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
قم ببناء البحث في محاذاة رتيب وتشغيل المعالجة المسبقة إذا كنت تستخدم مجموعات البيانات الخاصة بك.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

تدريب exmaple

 # LJ Speech
python train.py -c configs/ljs_base.json -m ljs_base

# VCTK
python train_ms.py -c configs/vctk_base.json -m vctk_base

مثال الاستدلال

انظر الاستدلال

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-24
الحجم 963.36KB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
نكتة

2024-02-26

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل