تنزيل Multi Tacotron Voice Cloning - تنزيل رمز مصدر Multi Tacotron Voice Cloning

Multi Tacotron Voice Cloning

كود الذكاء الاصطناعي

1.0.0

تنزيل

استنساخ الصوت متعدد التاكوترون

هذا المستودع هو تنفيذ متعدد اللغات (روسي-إنجليزي) يعتمد على تربية الوقت الفعلي. هو إطار تعلم عميق من أربع مراحل يسمح بإنشاء تمثيل عددي لصوت من بضع ثوان من الصوت ، وللإحداث نموذج نص إلى كلام. إذا كنت بحاجة إلى الإصدار الإنجليزية ، فيرجى استخدام التنفيذ الأصلي.

هذا المستودع عبارة عن تنفيذ صوتي متعدد اللغات (روسي-إنجليزي) يعتمد على تربية الوقت الفعلي. وهو يتألف من أربع شبكات عصبية تسمح لك بإنشاء تمثيل عددي للصوت من عدة ثوان من الصوت واستخدامه لإنشاء نموذج لتحويل النص إلى الكلام

مثال

بداية سريعة

استخدم عرض Colab Online

متطلبات

ستحتاج إلى ما يلي ما تخطط لاستخدام صندوق الأدوات فقط لإعادة تدريب النماذج.

≥python 3.6 .

Pytorch (> = 1.0.1).

قم بتشغيل pip install -r requirements.txt لتثبيت الحزم اللازمة.

يعد GPU إلزاميًا ، لكنك تحتاج بالضرورة إلى وحدة معالجة الرسومات عالية المستوى إذا كنت ترغب في استخدام صندوق الأدوات.

نماذج ما قبل

قم بتنزيل أحدث Geere.

مجموعات البيانات

اسم	لغة	وصلة	تعليقات	رابط بلدي	تعليقات
قاموس الصوتية	en ، رو	en ، رو	قاموس الصوتية	وصلة	الجمع بين قاموس الصوتية الروسية والإنجليزية
Librispeech	en	وصلة	300 مكبرات صوت ، خطاب نظيف 360 ساعة
voxceleb	en	وصلة	7000 مكبرات صوت ، خطاب سيء عدة ساعات
M-ilabs	رو	وصلة	3 مكبرات صوت ، خطاب نظيف 46 ساعة
open_tts ، open_stt	رو	open_tts ، open_stt	العديد من المتحدثين ، وساعات طويلة خطاب سيء	وصلة	تنظيف 4 ساعات من الكلام من متحدث واحد. تصحيح التبرع ، مقسمة إلى أجزاء تصل إلى 7 ثوانٍ
Voxforge+Audiobook	رو	وصلة	العديد من المتحدثين ، 25 ساعة جودة مختلفة	وصلة	اخترت الملفات الجيدة. اقتحم الأجزاء. أضافت كتابًا مسموعًا من الإنترنت. اتضح أن 200 مكبر صوت بضع دقائق لكل منهما
روسلان	رو	وصلة	متحدث واحد ، 40 ساعة خطاب جيد	وصلة	تم تصحيحه في 16 كيلو هرتز
موزيلا	رو	وصلة	50 متحدثًا ، خطاب جيد 30 ساعة	وصلة	مدهون في 16 كيلو هرتز ، متناثرة مستخدمين مختلفين في المجلدات
أغنية روسية	رو	وصلة	متحدث واحد ، خطاب جيد 9H	وصلة	تم تصحيحه في 16 كيلو هرتز

أدوات

يمكنك تجربة صندوق الأدوات:

python demo_toolbox.py -d <datasets_root>
أو
python demo_toolbox.py

ويكي

نماذج ما قبل

التدريب (ولللغات الأخرى)

مساهمة

لأي أسئلة ، يرجى إرسال بريد إلكتروني إلى MEM

تنفيذ الأوراق

عنوان URL	تعيين	عنوان	مصدر التنفيذ
1806.04558	SV2TTS	نقل التعلم من التحقق من مكبر الصوت إلى توليف النص إلى الكلام متعدد اللاعبين	كورنتينج
1802.08435	Wavernn (Vocoder)	تخليق الصوت الفعال	Fatchord/Wavernn
1712.05884	تاكوترون 2 (مزج)	تخليق TTS الطبيعي عن طريق تكييف Wavenet على تنبؤات طيفية MEL	Rayhane-Mamah/Tacotron-2
1710.10467	GE2E (تشفير)	خسارة معممة من طرف إلى طرف للتحقق من المتحدثين	كورنتينج

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-22
الحجم 322.81KB
من Github

تطبيقات ذات صلة

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
مشروع دراغون بول النسخة الصينية المتعددة

2024-08-23
رجل العائلة: العودة إلى المتعدد

2022-08-29

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل