تنزيل Pollyduble - تنزيل رمز المصدر Pollyduble

Pollyduble

كود الذكاء الاصطناعي

1.0.0

تنزيل

Pollyduble

دبلجة تلقائية مع استنساخ الصوت والتعرف على الكلام
أصبح من الممكن بفضل OpenVoice ، Melotts ، Whisper أسرع ، Voicefixer ، Python-Audio-Separator و FFMPEG.

بولي الشرغوف

هذا نموذج أولي تجريبي للغاية لنص يهدف إلى الحصول على صوت اللغة الإنجليزية تلقائيًا عبر ملف فيديو تم تسجيله في الأصل في أي لغة تدعمه الهمس. من الناحية النظرية ، مع بعض التعديلات ونماذج OpenVoice المختلفة ، يجب أن تدعم أي لغة تدعمها OpenVoice ، ومع ذلك يجب أن يتم التعامل مع الترجمة بشيء آخر غير الهمس

سمات

استنساخ الصوت وتوليف النص إلى كلام محلي
التعرف على الكلام التلقائي
فصل الصوت
التزامن الأوتوماتيكي للخطوط المدبوجة إلى الكلام الأصلي
إصلاح صوت اختياري لإعادة بعض الترددات العالية المفقودة أثناء عملية الاستنساخ الصوتي
يعود إلى الصوت المسمى ومسار مفيدة مستخرجة إلى الفيديو

PRS موضع ترحيب ، وهذا في الغالب مجرد دليل على المفهوم. بعض الأفكار الجيدة للتحسين تشمل:

مذكرات السماعة لفصل خطاب الأحرف المختلفة وتعيين الخطوط الدبلجة الصحيحة تلقائيًا إلى الأحرف الصحيحة
القدرة على تحميل ترجمات مخصصة بدلاً من الاعتماد على التعرف على الكلام التلقائي
الشبكة العصبية للترجمة (محلية مفضلة للغاية) أو واجهة برمجة التطبيقات لعدم الاعتماد على ترجمات Whisper الرديئة

المتطلبات المسبقة

بيثون 3.9
FFMPEG و FFProbe و Ffplay مثبتة على نظامك وفي المسار
Windows (تم اختباره فقط على Windows)
من المحتمل أن يلزم اتباع وحدة معالجة الرسومات NVIDIA الحديثة مع دعم CUDA
Miniconda أو Anaconda (اختياري ، ولكن الموصى بها)

تثبيت

قم بتثبيت FFMPEG و FFProbe و Ffplay على نظامك وتأكد من أنها في طريقها. يمكنك تنزيلها من هنا.
قم بعمل دليل جديد واستنساخ هذا المستودع:

git clone https://github.com/igerman00/Pollyduble
cd Pollyduble

قم بإنشاء بيئة كوندا جديدة:

conda create -n dubbing python=3.9

تفعيل بيئة كوندا:

conda activate dubbing

استنساخ مستودع OpenVoice

git clone https://github.com/myshell-ai/OpenVoice

تأكد من أن مستودع OpenVoice في نفس الدليل مثل هذا المستودع ، يجب تسميته "OpenVoice".

تثبيت OpenVoice:

 cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic download

تثبيت torch بدعم GPU (يجب أن يكون معلمة INDEX-URL اختيارية لعدم دعم GPU):

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

تثبيت التبعيات الأخرى:

 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txt

الاستخدام

احصل على ملف فيديو ووضعه في أي مكان على جهاز الكمبيوتر الخاص بك ، لأن هذا المثال سنفترض أنه في نفس الدليل مثل البرنامج النصي demo.py الخاص بنا ، ويسمى video.mp4 .
قم بتشغيل البرنامج النصي:

python demo.py -i video.mp4 -s -m

سيتم تخزين الإخراج في دليل Pollyduble/output بشكل افتراضي. سيحتوي على العديد من الملفات بما في ذلك الفيديو المدبلج ، والصوت المنفصل ، والصوت المدبلج ، وعينة الصوت. في الغالب ، يجب أن يكون نقرة واحدة.

تشمل الخيارات:
-i أو --input لتحديد ملف الفيديو الإدخال
-o أو --output لتحديد دليل الإخراج (الافتراضي هو Pollyduble/output )
-v أو --voice حالة تحديد عينة مخصصة للاستنساخ الصوتي. إذا لم يتم تحديدها ، سيتم إنشاء واحد من أول 15 ثانية من الفيديو
-s أو --separate لتمكين فصل الصوت ، أي استخراج موسيقى الخلفية والكلام من الفيديو بشكل منفصل
-m أو --mux لتمكين Muxing الصوت المنفصل مرة أخرى إلى الفيديو مع الكلام المدبلج
-f أو --fix لتمكين إصلاح الصوت ، أي تحسين جودة الكلام المدبلج.
^ تجريبي ولا يبدو في الواقع هذا جيد معظم الوقت.
--help لعرض رسالة المساعدة