تنزيل AutoTalker - تنزيل رمز المصدر AutoTalker

AutoTalker

كود الذكاء الاصطناعي

1.0.0

تنزيل

Autotalker؟

مشروع الفيديو التجريبي

تحقق من الفيديو التجريبي لمشاهدة Autotalker في العمل!

whatsapp.video.2024-02-26.at.2.29.16.am.mp4

مثال

موجه الإدخال

"اشرح بيثون وتطبيقاتها في 30 ثانية"

إدخال صورة

إخراج الفيديو

output_video.mp4

وصف المشروع

مشروع المتدرب (TAP)

في المشهد السريع المتطور في القرن الحادي والعشرين ، يعد التعليم الشامل أمرًا بالغ الأهمية لإعداد الطلاب بالمهارات اللازمة للازدهار في المجتمع الحديث. يكرس مشروع المتدربين (TAP) لزراعة هذه المهارات الأساسية في القرن الحادي والعشرين بين الأطفال المحرومين الذين يحملون المدارس الحكومية أو ذات الدخل المنخفض.

تعمل TAP تحت مظلة مؤسسة Mentorme Foundation ، وهي شركة مسجلة في القسم 8 ، ويدعمها بفخر المؤسسات المحترمة مثل جامعة هارفارد ، و IIM Bangalore ، ومؤسسة Nudge. كشركاء رسميين مع حكومات ماهاراشترا ودلهي ، يكون لـ TAP تأثير كبير ، حيث وصلت إلى أكثر من 31000 طفل من خلال chatbot المبتكرة.

بيان المشكلة

عدد مذهل من طلاب المدارس المتوسطة والثانوية-أكثر من 100 مليون-من المجتمعات ذات الدخل المنخفض في جميع أنحاء الهند يفتقرون إلى مهارات القرن الحادي والعشرين ، بما في ذلك التعلم الاجتماعي والعاطفي (SEL) ومحو الأمية المالية. يزيد نظام التعليم العام التقليدي الذي يركز على الامتحانات هذه القضية ، مما يؤدي إلى الإحصاء المقلق بأن 1 من كل طفلان يتخرجون من نظام التعليم الهندي يعتبر عاطلًا عن العمل بسبب عدم وجود هذه المهارات الحاسمة.

إحصائيات محو الأمية المالية:
- فقط 16.7 ٪ من طلاب المراهقين الهنود لديهم محو الأمية المالية الأساسية.
- فقط 27 ٪ من السكان البالغين الهنود يعتبرون يعرفون القراءة والكتابة ماليا.

أهداف التنمية المستدامة الأمم المتحدة (SDGS)

TAP يحاذا مهمتها مع العديد من أهداف التنمية المستدامة للأمم المتحدة:

الهدف 1: لا فقر
الهدف 2: الصفر جوع
الهدف 3: صحة جيدة ورفاهية
الهدف 4: تعليم الجودة
الهدف 8: العمل اللائق والنمو الاقتصادي

النظام الحالي

مشروع المتدرب (TAP) ، الذي يعمل تحت مؤسسة Mentorme Foundation ، يمكّن الطلاب من خلال Tap Buddy-وهو chatbot WhatsApp الذي يعمل بالذكاء الاصطناعي. يقدم Tap Buddy اختياريًا قائمًا على الفيديو ، وتوجيه الطلاب من خلال مشاريع مستقلة باستخدام مخصصات مخصصة للمحتوى (ML) والمحتوى القائم على BOT. تعزز مقاطع فيديو مشروع التعلم الذاتي مهارات مثل الإبداع والثقة والوعي الذاتي والتواصل وحل المشكلات ، وكسر الحواجز العقلية وغرس عقلية النمو.

التحديات والابتكارات

مع استمرار نمو chatbot في TAP ، يواجه المشروع التحديات ويبحث عن حلول مبتكرة:

إنشاء الدورة التدريبية: الاستفادة من الذكاء الاصطناعي لإنشاء محتوى عبر مختلف الاختيارات مثل الترميز والفنون البصرية ، بهدف التغلب على القيود في إنشاء الفيديو بالجملة بسبب قيود الوقت اليدوي.
التعلم الشخصي: توظيف الذكاء الاصطناعي لإنشاء دروس ترميز مخصصة أو أدلة مشروع فني مصممة على أساليب التعلم الفردية ومستويات المهارة. يتكيف تحليل تحليل ML/Open AI المتقدم بناءً على تقدم المتعلم ، مما يضمن تجربة تعليمية مخصصة.
إنشاء المحتوى: استخدام الذكاء الاصطناعى لإنشاء قصاصات أو قوالب أو تصميم أفكار للتصميم للمشاريع الفنية ، وتوجيه الطلاب على مستويات مهاراتهم واقتراح خيارات الاستكشاف.
الاستكشاف الفني: التوصية بالتقنيات والأساليب القائمة على مستوى مهارة الطفل ، وتوسيع آفاق فنية من خلال مقارنة عملهم بالفنانين المشهورين أو الحركات الفنية.
الترميز الإبداعي: استخدام الذكاء الاصطناعي لتبادل الأفكار وتوفير مصدر إلهام لمشاريع الترميز المبتكرة والفنية.

النهج والحل

يتضمن نهائي في مواجهة التحديات التي تواجهها TAP الاستفادة من التقنيات المتطورة ، بما في ذلك معالجة اللغة الطبيعية (NLP) ، والذكاء الاصطناعي (AI) ، والتعلم الآلي (ML) ، لتطوير Autotalker-وهو مكون من TAP يهدف إلى تعزيز التجربة التعليمية للطلاب.

تستخدم Autotalker نماذج ومكتبات من الذكاء الاصطناعي المتقدمة ، مثل Suno Bark TTS لتحويل النص إلى كلام ، و AI Python SDK (Gemini Pro) لتوليد النصوص ، و SARTALKER للحصول على صوتية متزامنة الشفاه مع حركات الوجه في مقاطع الفيديو. من خلال دمج هذه التقنيات ، يتيح Autotalker إنشاء محتوى فيديو جذاب وغني بالمعلومات من مطالبات النص والصور.

علاوة على ذلك ، يتضمن المشروع ميزات مثل التعلم الشخصي ، ومساعدة إنشاء المحتوى ، ودعم اللغة لتلبية احتياجات وتفضيلات التعلم المتنوعة. من خلال تسخير قوة الذكاء الاصطناعي ، يمكّن Autotalker المعلمين والطلاب على حد سواء من الوصول إلى المحتوى التعليمي عالي الجودة المصمم لمتطلباتهم الفردية ، وبالتالي تعزيز تطوير مهارات القرن الحادي والعشرين.

من خلال هذا الحل المبتكر ، يهدف TAP إلى إحداث ثورة في المشهد التعليمي ، وسد الفجوة في الوصول إلى موارد التعلم الجودة وتمكين الطلاب من المجتمعات المحرومة من الخدمات لتحقيق إمكاناتهم الكاملة في العصر الرقمي.

جدول المحتويات

عن
سمات
ابدء
- المتطلبات الأساسية
- تثبيت
الاستخدام
المساهمة
رخصة
شكر وتقدير

عن

يركز المشروع على الاستفادة من التكنولوجيا لإنشاء دورات جديدة ، وتخصيص الدورات الحالية ، وتعزيز عملية التقييم ، والمساهمة في نهاية المطاف في تطوير مهارات القرن الحادي والعشرين في الطلاب. يعرض Autotalker ، وهو مكون من TAP ، إمكانيات الذكاء الاصطناعي في إنشاء مقاطع فيديو متزامنة الشفاه من مطالبات النصوص والصور ، مما يعزز التجربة التعليمية الشاملة للطلاب.

يستخدم العديد من المكتبات ، بما في ذلك:

Suno Bark TTS: مكتبة تحويل النص إلى كلام تستخدم لإنشاء الصوت من مطالبات النص.
PYDUB: مكتبة معالجة الصوت للتعامل مع ملفات وتنسيقات الصوت.
google.generativeai (Gemini Pro): تستخدم AI Python SDK من Google لتوليد النص.
Sadtalker: نموذج مزامنة الشفاه يستخدم لمزامنة الصوت مع حركات الوجه في مقاطع الفيديو.
Openai Whisper: مكتبة لتحويل الكلام إلى النص ، مما يتيح تخصيص خصائص الصوت.
Spotify Pedalboard: مكتبة تحسين الصوت لتحسين جودة وتأثيرات ملفات الصوت.
MoviePy: مكتبة تحرير الفيديو التي تسهل مهام معالجة الفيديو وتحريرها.
Pytorch: إطار عمل تعليمي عميق يستخدم لمهام التعلم الآلي المختلفة ، بما في ذلك وظائف Sadtalker.
FFMPEG: إطار عمل متعدد الوسائط يستخدم للتعامل مع بيانات الوسائط المتعددة مثل ملفات الصوت والفيديو.
معانقة محولات الوجه: مكتبة توفر نماذج مدربة مسبقًا ومختلف الأدوات المساعدة لمهام معالجة اللغة الطبيعية.
BetterTransformer: مسار سريع جاهز للإنتاج لتسريع نشر نماذج المحولات بأداء عالي على وحدة المعالجة المركزية و GPU. تعمل ميزة المسار السريع بشفافية للنماذج التي تعتمد مباشرة على Pytorch Core NN.
Numpy: مكتبة حساب عددية قوية للتعامل مع المصفوفات والمصفوفات الكبيرة متعددة الأبعاد.
Gradio: مكتبة سهلة الاستخدام لإنشاء مكونات واجهة المستخدم القابلة للتخصيص حول نماذج التعلم الآلي ، مما يتيح النشر والتفاعل السهل مع النماذج من خلال واجهات الويب.

سمات

تحويل النص إلى الكلام: يستخدم Suno Bark TTS لتحويل مطالبات النص إلى ملفات صوتية (تنسيق WAV).
معالجة الصوت: توظف PYDUB لمهام التلاعب الصوتي ، وتعزيز جودة الصوت وتطبيق التأثيرات المطلوبة.
نص الذكاء الاصطناعى التوليدي: يستفيد من Google Ai Python SDK (Gemini Pro) لتوليد النصوص ، مما يوفر مطالبات متنوعة وذات صلة بالسياق.
مزامنة الشفاه: يدمج Sadtalker ، وهو نموذج مزامنة الشفاه ، لمزامنة الصوت الذي تم إنشاؤه مع حركات الوجه في مقاطع الفيديو.
تحويل الكلام إلى النص: يتضمن Openai Whisper لتحويل الكلام إلى النص ، مما يسمح بتخصيص خصائص الصوت.
تحسين الصوت: يستخدم Spotify Dedalboard لتعزيز التأثيرات على الملفات الصوتية وتطبيقها ، وتحسين جودة الصوت بشكل عام.
تحرير الفيديو: ينفذ MoviePy ، مكتبة تحرير الفيديو ، لمهام معالجة الفيديو وتحريرها ، بما في ذلك إنشاء مقاطع فيديو متزامنة الشفاه النهائية.
إطار التعلم العميق: يعزز Pytorch لقدراته التعليمية العميقة ، وهو أمر ضروري لتنفيذ وظائف Sadtalker.
معالجة الوسائط المتعددة: يستخدم FFMPEG ، وهو إطار للوسائط المتعددة ، للتعامل مع بيانات الوسائط المتعددة مثل ملفات الصوت والفيديو أثناء المعالجة.
معالجة اللغة الطبيعية: يدمج محولات الوجه المعانقة ، ويقدم نماذج ومرافق تدريب مسبقًا لمهام معالجة اللغة الطبيعية.
المسار السريع لنماذج المحولات: يتضمن BetterTransformer ، مسار سريع جاهز للإنتاج لنشر نماذج المحولات على كل من وحدة المعالجة المركزية و GPU.
الحساب العددي: يعتمد على numpy للحساب العددي القوي ، وخاصة للتعامل مع المصفوفات والمصفوفات الكبيرة متعددة الأبعاد.
مكونات واجهة المستخدم سهلة الاستخدام: دمج Gradio ، مكتبة سهلة الاستخدام ، لإنشاء مكونات واجهة المستخدم القابلة للتخصيص حول نماذج التعلم الآلي ، وتسهيل النشر والتفاعل السهل من خلال واجهات الويب.
دعم اللغة: يدعم لغات متعددة ، بما في ذلك اللغة الإنجليزية والصينية (المبسطة) والفرنسية والألمانية والهندية والإيطالية واليابانية والكورية والبولندية والبرتغالية والروسية والإسبانية والتركية.
دعم الترجمة: متاح حاليًا فقط للغة الإنجليزية.

تساهم هذه الميزات بشكل جماعي في توليد مقاطع فيديو متزامنة الشفاه من مطالبات نص الإدخال والصور ، مع دعم لمختلف اللغات والترجمات باللغة الإنجليزية.

ابدء

المتطلبات الأساسية

بيثون 3.10.6
مفتاح API من Google AI.
FFMPEG مثبت.
Pytorch مثبتة. تأكد من دعم نظامك CUDA.
ImageMagick مثبت. هذا مطلوب لـ MoviePy.
تم تثبيت Sadtalker.
ملاحظة: تأكد من أن وحدة معالجة الرسومات الخاصة بك لديها ما لا يقل عن 4 جيجابايت VRAM بدعم من CUDA.

تثبيت

تثبيت Python 3.10.6:
- قم بتنزيل وتثبيت Python 3.10.6. لاحظ أن الإصدارات 3.11 و 3.12 غير مدعومة.
تثبيت FFMPEG:
- اتبع التعليمات المناسبة لنظامك.
تثبيت ImageMagick:
- تنزيل وتثبيت ImageMagick.

استنساخ مستودع Autotalker:

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

قم بتنزيل Sadtalker مع النماذج والأوزان:
```
python download_models.py
```
قم بتشغيل الأمر أعلاه وانتظر حتى يظهر "التنزيلات المكتملة". سيؤدي ذلك إلى تنزيل Sadtalker جنبا إلى جنب مع النماذج والأوزان المطلوبة.
إنشاء بيئة افتراضية:
```
python -m venv venv
```
تنشيط البيئة الافتراضية:
- على Linux/Mac:
```
 source venv/bin/activate
```
- على Windows:
```
. v env S cripts a ctivate
```
تثبيت التبعيات:
```
pip install -r requirements.txt
```

تثبيت Pytorch مع كودا:

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

الآن ، قمت بإعداد البيئة بنجاح للمشروع ، مما يضمن تلبية وحدة معالجة الرسومات الخاصة بك بالمتطلبات المحددة.

الاستخدام

هيكل المشروع

يحتوي المشروع على الهيكل التالي:

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

خطوات لتشغيل Autotalker وفتح Gradio Web UI:

تنشيط البيئة الافتراضية:
- تنشيط البيئة الافتراضية التي تم إنشاؤها في وقت سابق.
تكوين مفتاح Gemini Pro API:
- افتح ملف main.py
- حدد موقع الخط: genai.configure(api_key="add your key here") .
- استبدل "add your key here" بمفتاح Gemini Pro API الفعلي.
قم بتشغيل البرنامج النصي الرئيسي و Gradio Web UI:
- انسخ رمز Gradio المقدم ( iface.launch() جزء) من البرنامج النصي.
تشغيل Autotalker وإطلاق Gradio:
- في نفس المحطة التي تكون فيها بيئتك الافتراضية نشطة ، قم بتشغيل البرنامج النصي التلقائي إلى جانب واجهة المستخدم على شبكة الإنترنت.
```
python main.py
```
Access Gradio Web UI:
- بعد تشغيل البرنامج النصي ، ستوفر Gradio رابطًا (عادةً ما يكون محليًا) حيث يتم استضافة واجهة المستخدم على الويب. افتح هذا الرابط في متصفح الويب الخاص بك.
استكشف الواجهة:
- سيكون لديك الآن إمكانية الوصول إلى واجهة واجهة المستخدم على شبكة الإنترنت Gradio.
- تفاعل مع مكونات الإدخال المقدمة مثل مربعات النص وأزرار الراديو والتقاطعات وخيارات تحميل الصور.
أرسل وانتظر:
- انقر على "تشغيل واجهة" أو زر ما شابه لإرسال الإدخال الخاص بك.
- ستعمل Gradio على معالجة الإدخال الخاص بك ، وإنشاء الإخراج ، وعرض النتائج في واجهة المستخدم على الويب.
مراجعة الإخراج:
- قد يكون الإخراج مقطع فيديو به أو بدون ترجمات ، اعتمادًا على التكوين الخاص بك.
استكشف ترجمات (إذا تم تمكينها):
- إذا قمت بتمكين دعم الترجمة ، استكشف الترجمات التي تم إنشاؤها للفيديو.
كرر وتجربة:
- لا تتردد في تجربة مدخلات مختلفة ومطالبات ومعلمات لإنشاء مخرجات مختلفة.
أغلق واجهة المستخدم Gradio:
- بمجرد الانتهاء ، أغلق واجهة المستخدم على شبكة الإنترنت.

من خلال اتباع هذه الخطوات المدمجة ، يمكنك تشغيل Autotalker بسلاسة ، والتفاعل مع واجهة المستخدم على شبكة الإنترنت ، وتجربة مقاطع الفيديو الممتلة التي تم إنشاؤها.

المساهمة

نحن نقدر اهتمامك بالمساهمة في مشروعنا! لضمان تجربة سلسة وتعاونية ، يرجى اتباع هذه الإرشادات:

شوكة المستودع:
- ابدأ برفع هذا المستودع إلى حساب GitHub الخاص بك.

استنساخ المستودع:

git clone https://github.com/YourUsername/AutoTalker.git

إنشاء فرع:
- لكل مساهمة ، قم بإنشاء فرع جديد يحمل اسمًا وصفيًا.
```
git checkout -b feature/your-feature-name
```
إجراء تغييرات:
- قم بتنفيذ التحسينات أو الإصلاحات. تأكد من أن التغييرات الخاصة بك تتماشى مع أهداف المشروع.
ارتكاب التغييرات:
- ارتكب تغييراتك مع رسائل الالتزام الواضحة والموجزة.
```
git commit -m " Add your commit message here "
```
دفع التغييرات:
- ادفع التغييرات الخاصة بك على مستودعك المتشعب.
```
git push origin feature/your-feature-name
```
إنشاء طلب سحب:
- افتح طلب سحب من مستودعك المتشعب إلى المستودع الرئيسي.
- تقديم معلومات مفصلة حول التغييرات الخاصة بك ، وتحديد الغرض والتأثير.
مراجعة والتعاون:
- الانخراط في المناقشات ، والرد على التعليقات ، والتعاون مع المجتمع لتحسين مساهمتك.
يرتفع الاسكواش (إذا لزم الأمر):
- إذا كان طلب السحب الخاص بك يحتوي على ارتباطات متعددة ، ففكر في سحقها في التزام واحد منظم جيدًا.
دمج:
- بمجرد الموافقة على طلب السحب الخاص بك ، سيتم دمجه في المستودع الرئيسي.
المجالات التي تحتاج إلى مساعدة: تنفيذ TTS يشبه الإنسان

إذا كنت مهتمًا بإحداث تأثير كبير ، ففكر في المساهمة في تنفيذ نص إلى نص إلى خط للكراب (TTS) لمجموعة متنوعة من اللغات ، بما في ذلك اللغات الإقليمية الهندية. ركز على تعزيز قدرات TTS لكل من أصوات الذكور والإناث.

اللغات المدعومة لتنفيذ TTS تشبه الإنسان:

اللغة العربية (AR)
البنغالية (BN)
البلغارية (BG)
الكرواتية (HR)
التشيكية (CS)
الدنماركية (DA)
الهولندي (NL)
الإستونية (ET)
الفنلندية (FI)
اليونانية (EL)
العبرية (IW)
الهنغاري (هو)
إندونيسي (معرف)
لاتفيان (LV)
الليتواني (LT)
النرويجي (لا)
الروماني (رو)
الصربي (SR)
سلوفاك (SK)
سلوفيني (SL)
السواحيلية (SW)

تركيز إضافي على اللغات الإقليمية الهندية:

بالنظر إلى المشهد اللغوي المتنوع في الهند ، يتم تقدير المساهمات لدعم اللغات الإقليمية الهندية في TTS. قد تشمل هذه اللغات ، على سبيل المثال لا الحصر:

الهندية
التاميل
التيلجو
الكانادا
الملايالام
البنجابية
غوجاراتية
المهاراتية
البنغالية
أوديا
الأسامية
الأردية

ستساهم جهودك في تنفيذ TTS لهذه اللغات بشكل كبير في جعل المحتوى التعليمي في متناول جمهور أوسع ، وخاصة في المناطق ذات الخلفيات اللغوية المتنوعة.

شكرًا لك على النظر في هذه المساهمات المهمة في تطبيق TTS الذي يشبه الإنسان! سوف يلعب عملك دورًا حيويًا في جعل المحتوى التعليمي شاملًا ومتاحًا للمتعلمين من خلفيات لغوية مختلفة. ؟

رخصة

هذا المشروع مرخص بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.

شكر وتقدير

يعترف هذا المشروع بالمشاريع التالية المفتوحة المصدر والمساهمين:

Google AI Python SDK: يمكّن Google AI Python SDK المطورين من استخدام نماذج AI التوليدية الحديثة (مثل الجوزاء والنخيل) لإنشاء ميزات وتطبيقات تعمل بنيو ذاهبة.
Sadtalker: [CVPR 2023] Sadtalker: تعلم معاملات الحركة ثلاثية الأبعاد واقعية للرسوم المتحركة المفردة التي تعتمد على الصوت. مشروع من قبل Opentalker.
Pedalboard: مكتبة Python للعمل مع الصوت ، تم تطويرها بواسطة Spotify.
الهمس: اعتراف قوي بالكلام عبر إشراف ضعيف على نطاق واسع ، وهو مشروع مفتوح المصدر من Openai.
المحولات عن طريق معانقة الوجه : ؟ Transformers: التعلم الآلي على أحدث طراز ل Pytorch و TensorFlow و Jax.
تسريع عن طريق العناق الوجه: طريقة بسيطة لتدريب واستخدام نماذج Pytorch مع GPU متعددة ، TPU ، الدقة المختلطة.
الأمثل من خلال معانقة الوجه: تسريع التدريب واستنتاج؟ المحولات و؟ الناشرون مع أدوات تحسين الأجهزة سهلة الاستخدام.
لحاء من Suno AI : ؟ نموذج الصوت التوليدي المقدم نص.
Pytorch: Tensors والشبكات العصبية الديناميكية في Python مع تسارع GPU قوي.