برنامج لاستلام الوسائط متعددة اللغات والأنيمي باستخدام توليف خطاب الذكاء الاصطناعى الحديثة ، والمذكرات ، وتحديد اللغة ، والاستنساخ الصوتي.

يمكنك تجربة الإصدار الثنائي الأول الذي لديه إمكانية الوصول إلى ميزات Dubbing الأساسية مع المكتبات غير المستندة إلى AAI لنظام التشغيل Windows و Linux. هذه طريقة جيدة لتجربة البرنامج ولا يزال بإمكانك القيام بالدبلجة الأساسية مع أصوات النظام. إذا كنت ترغب في استخدام الميزات المتقدمة ، فسوف يتعين عليك تجربة الميزات المتقدمة كما هو موضح في البرنامج التعليمي.
لقد صنعت هذا الفيديو لعرض كيفية استخدام جميع الميزات وكل ما يمكن أن تفعله SoftWwware حاليًا

العديد من العروض والأفلام وشرائح الأخبار والمقابلات ومقاطع الفيديو لن تتلقى أبدًا Dubs المناسبة للغات الأخرى ، ويمكن أن يكون دبلجة شيء من نقطة الصفر مهمة هائلة. هذا يمثل عقبة شائعة للوصول للأشخاص الذين يعانون من العمى أو عسر القراءة أو صعوبات التعلم أو ببساطة الأشخاص الذين لا يستمتعون بقراءة الترجمات. يهدف هذا البرنامج إلى إنشاء بديل ممتع للأشخاص الذين يواجهون هذه الصراعات.
هذا البرنامج هو نتاج الحرب. حولتني أختي إلى أنيمي كوميدي مفضل الآن "الحياة الكارثية لـ Saiki K." لكن Netflix لم يأمر مطلقًا بالموسم الثاني. أنا أعمى ولا أستطيع ولن أتمكن أبدًا من قراءة الترجمة ، لكن يجب أن أعرف كيف تتقدم القصة! لقد أجبرت Netflix يدي وسأحضر أنيمي من الذكاء الاصطناعي للمكفوفين!
يعتمد هذا المشروع على بعض الصفع بدائي مع بعض التقنيات الفنية. يستخدم العديد من مكتبات وتقنيات معالجة الصوت لتحليل وتوليف الكلام الذي يحاول البقاء متمركزًا مع ملف الفيديو المصدر. يعتمد في المقام الأول على FFMPEG و PYDUB لتحرير الصوت والفيديو ، و Coqui TTS لتوليف الكلام ، ومكتب الكلام لتحديد اللغة ، و pyannote.audio لمؤسسة المتحدث.
لديك خيار Dubbing كل عنوان فرعي في الفيديو ، وضع أوقات Tart و Heen ، الدبلجة فقط محتوى باللغة الأجنبية ، أو Drbing الكاملة مع معدل التحدث ومطابقة الحجم.
هذا المشروع هو حاليا ما قد يتصل به البعض في ألفا. الوظيفية الرئيسية والمناسبة في مكانها الصحيح ، ومن الممكن استخدامها من خلال استنساخ الريبو ، لكنها بدأت فقط جاهزة للإصدار الأول. هناك العديد من التحسينات ، UX ، وإعادة البناء التي يجب القيام بها قبل أن أسميها الانتهاء. ترقبوا التحديثات العادية ، ولا تتردد في تمديد يدها مع المساهمات أو الاختبار أو الاقتراحات إذا كان هذا شيء مهتم به.
كان لدي فكرة أن أسمي البرنامج Woublind كبورمانو من WeeaBoo (شخص ما مهووسًا جدًا بالأنمي) ، والمكفوفين. قد أقوم بتغييره إلى شيء آخر في المستقبل مثل Blindtaku أو DubHub أو شيء مشابه وأكثر جاذبية لأنه يمكن استخدام البرنامج لأكثر من مجرد أنيمي.
لا يوجد حاليًا أي حلقات مسبقة للتنزيل ، وهذا شيء أبحث عنه ، لكن العديد من هذه التبعيات ليس من السهل تجميعها بشيء مثل Pyinstaller
يعمل البرنامج بشكل أفضل على Linux ، ولكنه سيعمل أيضًا على Windows.
ستحتاج إلى تثبيت FFMPEG على نظامك والتأكد من أنه قابل للاتصال من المحطة أو في مسار النظام الخاص بك
لاستخدام Coqui TTS ، ستحتاج أيضًا
على Windows ، يتطلب PIP أدوات إنشاء MSVC لبناء coqui. يمكنك تثبيته هنا: https://visualstudio.microsoft.com/visual-cpp-build-tools/
ستعمل كلاهما على حد سواء Coqui TTS و Pyannote Diarization بشكل أفضل إذا قمت بإعداد CUDA على نظامك لاستخدام وحدة معالجة الرسومات الخاصة بك. يجب أن يعمل هذا خارج المربع على Linux ولكن الحصول عليه على Windows يأخذ بعض القيام به. يجب أن يسيرك منشور المدونة هذا خلال العملية. إذا لم تتمكن من العمل ، فلا تقلق ، فلا يزال بإمكانك استخدامها على وحدة المعالجة المركزية الخاصة بك.
يعمل أحدث إصدار من Python على Linux ، لكن الطحال يعمل فقط على 3.10 ويمكن أن يكون Pyannote صعبًا مع ذلك أيضًا. 3.10 يبدو أنه يعمل بشكل أفضل على Windows. يمكنك الحصول عليها من متجر Microsoft.
لاستخدام المشروع ، ستحتاج إلى استنساخ المستودع وتثبيت التبعيات في enviormonet الظاهرية.
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
يحتوي هذا المشروع على الكثير من التبعيات ، ويمكن لـ PIP الصراع مع النزاعات ، لذلك من الأفضل التثبيت من ملف القفل مثل هذا:
pip install -r requirements-win-310.txt --no-deps
يمكنك المحاولة من ملف المتطلبات العادية ، ولكن قد يستغرق الأمر وقتًا طويلاً ويتطلب بعض الجرد في بعض الأحيان.
يمكن أن يستغرق تثبيت التبعيات دقيقة ساخنة ويستخدم مساحة كبيرة (حوالي 8 جيجابايت).
إذا كنت لا تحتاج إلى ميزات معينة على سبيل المثال ، تصفية اللغة ، يمكنك حذف خطاب الكلام من ReadMe.
بمجرد اكتمال ذلك ، يمكنك تشغيل البرنامج مع
python weeablind.py
ابدأ إما باختيار مقطع فيديو من جهاز الكمبيوتر الخاص بك أو لصق رابط إلى مقطع فيديو YT والضغط على Enter. يجب عليه تنزيل الفيديو والكثير من الغواصات والصوت.
بمجرد تحميل الفيديو ، يمكنك معاينة الترجمة التي سيتم تسميتها. إذا تم تحميل اللغة الخاطئة ، أو دفق الصوت الخاطئ ، قم بالتبديل إلى علامة تبويب التدفقات وحدد تلك الصحيحة.
يمكنك تحديد وقت البدء والنهاية إذا كنت بحاجة فقط إلى الحصول على قسم من الفيديو ، على سبيل المثال لتخطي السمة الافتتاحية وائتمانات العرض. استخدم بناء جملة Timecode مثل 2:17 واضغط على Enter.
بشكل افتراضي ، يجب تهيئة صوت "عينة". يمكنك اللعب مع تكوينات مختلفة واختبار الصوت قبل الدبلجة باستخدام زر "Sample Voice" في علامة التبويب "تكوين الأصوات". عندما يكون لديك معلمات راضية عنها ، فإن النقر فوق "تحديث الأصوات" سيعيد توضيحها لتلك الفتحة. إذا اخترت محرك System TTS ، فسيستخدم البرنامج أصوات SAPI5 أو Linux Espeak بشكل افتراضي. هذا سريع للغاية ولكن يبدو روبوتيا للغاية. يمنحك اختيار Coqui الكثير من الخيارات للعب معها ، ولكن سيُطلب منك تنزيل نماذج TTS ثقيلة للغاية. VCTK/VITS هو طرازي المفضل لأبذلته لأنه سريع للغاية ، حتى في وحدة المعالجة المركزية ، وهناك المئات من المتحدثين للاختيار من بينها. يتم تحميله بشكل افتراضي. إذا كنت قد قمت بتشغيل Diarization ، فيمكنك تحديد أصوات مختلفة من صندوق القائمة وتغيير خصائصها أيضًا.
في علامة التبويب Subtitles ، تقوم بتصفية الترجمات لاستبعاد الخطوط المنطوقة بلغتك المختارة حتى يتم تسمية اللغة الأجنبية فقط. هذا مفيد لمقاطع الفيديو متعددة اللغات ، ولكن ليس مقاطع الفيديو بلغة واحدة.
سيحاول تشغيل Diarization تعيين مكبر الصوت الصحيح لجميع الترجمات وإنشاء أصوات عشوائية لإجمالي عدد مكبرات الصوت المكتشفة. في Futre ، ستتمكن من تحديد خط أنابيب الإسهال وعدد مكبرات الصوت إذا كنت تعرف في وقت مبكر. يعد الإسهال مفيدًا فقط لمقاطع الفيديو التي تحتوي على العديد من مكبرات الصوت ويمكن أن تكون الدقة على نطاق واسع للغاية.
في علامة التبويب "تدفقات" ، يمكنك تشغيل العزلة الصوتية التي ستحاول إزالة الغناء من مسار الفيديو المصدر الخاص بك ولكن الاحتفاظ بالخلفية. إذا كنت تستخدم مقطع فيديو متعدد اللغات ولغة التشغيل أيضًا ، فستحتاج إلى تشغيل ذلك أولاً للحفاظ على اللغة الإنجليزية (أو أي غناء لغة المصدر).
بمجرد تكوين الأشياء التي تحبها ، يمكنك الضغط على زر Dubbing Big Run. هذا يمكن أن يستغرق بعض الوقت لتشغيل. بمجرد الانتهاء ، يجب أن يكون لديك شيء مثل "myvideo dubbed.mkv" في دليل output . هذا هو الفيديو النهائي الخاص بك!