تحقق من الفيديو التجريبي لمشاهدة Autotalker في العمل!
موجه الإدخال
"اشرح بيثون وتطبيقاتها في 30 ثانية"
إدخال صورة

إخراج الفيديو
في المشهد السريع المتطور في القرن الحادي والعشرين ، يعد التعليم الشامل أمرًا بالغ الأهمية لإعداد الطلاب بالمهارات اللازمة للازدهار في المجتمع الحديث. يكرس مشروع المتدربين (TAP) لزراعة هذه المهارات الأساسية في القرن الحادي والعشرين بين الأطفال المحرومين الذين يحملون المدارس الحكومية أو ذات الدخل المنخفض.
تعمل TAP تحت مظلة مؤسسة Mentorme Foundation ، وهي شركة مسجلة في القسم 8 ، ويدعمها بفخر المؤسسات المحترمة مثل جامعة هارفارد ، و IIM Bangalore ، ومؤسسة Nudge. كشركاء رسميين مع حكومات ماهاراشترا ودلهي ، يكون لـ TAP تأثير كبير ، حيث وصلت إلى أكثر من 31000 طفل من خلال chatbot المبتكرة.
عدد مذهل من طلاب المدارس المتوسطة والثانوية-أكثر من 100 مليون-من المجتمعات ذات الدخل المنخفض في جميع أنحاء الهند يفتقرون إلى مهارات القرن الحادي والعشرين ، بما في ذلك التعلم الاجتماعي والعاطفي (SEL) ومحو الأمية المالية. يزيد نظام التعليم العام التقليدي الذي يركز على الامتحانات هذه القضية ، مما يؤدي إلى الإحصاء المقلق بأن 1 من كل طفلان يتخرجون من نظام التعليم الهندي يعتبر عاطلًا عن العمل بسبب عدم وجود هذه المهارات الحاسمة.
TAP يحاذا مهمتها مع العديد من أهداف التنمية المستدامة للأمم المتحدة:
مشروع المتدرب (TAP) ، الذي يعمل تحت مؤسسة Mentorme Foundation ، يمكّن الطلاب من خلال Tap Buddy-وهو chatbot WhatsApp الذي يعمل بالذكاء الاصطناعي. يقدم Tap Buddy اختياريًا قائمًا على الفيديو ، وتوجيه الطلاب من خلال مشاريع مستقلة باستخدام مخصصات مخصصة للمحتوى (ML) والمحتوى القائم على BOT. تعزز مقاطع فيديو مشروع التعلم الذاتي مهارات مثل الإبداع والثقة والوعي الذاتي والتواصل وحل المشكلات ، وكسر الحواجز العقلية وغرس عقلية النمو.
مع استمرار نمو chatbot في TAP ، يواجه المشروع التحديات ويبحث عن حلول مبتكرة:
إنشاء الدورة التدريبية: الاستفادة من الذكاء الاصطناعي لإنشاء محتوى عبر مختلف الاختيارات مثل الترميز والفنون البصرية ، بهدف التغلب على القيود في إنشاء الفيديو بالجملة بسبب قيود الوقت اليدوي.
التعلم الشخصي: توظيف الذكاء الاصطناعي لإنشاء دروس ترميز مخصصة أو أدلة مشروع فني مصممة على أساليب التعلم الفردية ومستويات المهارة. يتكيف تحليل تحليل ML/Open AI المتقدم بناءً على تقدم المتعلم ، مما يضمن تجربة تعليمية مخصصة.
إنشاء المحتوى: استخدام الذكاء الاصطناعى لإنشاء قصاصات أو قوالب أو تصميم أفكار للتصميم للمشاريع الفنية ، وتوجيه الطلاب على مستويات مهاراتهم واقتراح خيارات الاستكشاف.
الاستكشاف الفني: التوصية بالتقنيات والأساليب القائمة على مستوى مهارة الطفل ، وتوسيع آفاق فنية من خلال مقارنة عملهم بالفنانين المشهورين أو الحركات الفنية.
الترميز الإبداعي: استخدام الذكاء الاصطناعي لتبادل الأفكار وتوفير مصدر إلهام لمشاريع الترميز المبتكرة والفنية.
يتضمن نهائي في مواجهة التحديات التي تواجهها TAP الاستفادة من التقنيات المتطورة ، بما في ذلك معالجة اللغة الطبيعية (NLP) ، والذكاء الاصطناعي (AI) ، والتعلم الآلي (ML) ، لتطوير Autotalker-وهو مكون من TAP يهدف إلى تعزيز التجربة التعليمية للطلاب.
تستخدم Autotalker نماذج ومكتبات من الذكاء الاصطناعي المتقدمة ، مثل Suno Bark TTS لتحويل النص إلى كلام ، و AI Python SDK (Gemini Pro) لتوليد النصوص ، و SARTALKER للحصول على صوتية متزامنة الشفاه مع حركات الوجه في مقاطع الفيديو. من خلال دمج هذه التقنيات ، يتيح Autotalker إنشاء محتوى فيديو جذاب وغني بالمعلومات من مطالبات النص والصور.
علاوة على ذلك ، يتضمن المشروع ميزات مثل التعلم الشخصي ، ومساعدة إنشاء المحتوى ، ودعم اللغة لتلبية احتياجات وتفضيلات التعلم المتنوعة. من خلال تسخير قوة الذكاء الاصطناعي ، يمكّن Autotalker المعلمين والطلاب على حد سواء من الوصول إلى المحتوى التعليمي عالي الجودة المصمم لمتطلباتهم الفردية ، وبالتالي تعزيز تطوير مهارات القرن الحادي والعشرين.
من خلال هذا الحل المبتكر ، يهدف TAP إلى إحداث ثورة في المشهد التعليمي ، وسد الفجوة في الوصول إلى موارد التعلم الجودة وتمكين الطلاب من المجتمعات المحرومة من الخدمات لتحقيق إمكاناتهم الكاملة في العصر الرقمي.
يركز المشروع على الاستفادة من التكنولوجيا لإنشاء دورات جديدة ، وتخصيص الدورات الحالية ، وتعزيز عملية التقييم ، والمساهمة في نهاية المطاف في تطوير مهارات القرن الحادي والعشرين في الطلاب. يعرض Autotalker ، وهو مكون من TAP ، إمكانيات الذكاء الاصطناعي في إنشاء مقاطع فيديو متزامنة الشفاه من مطالبات النصوص والصور ، مما يعزز التجربة التعليمية الشاملة للطلاب.
يستخدم العديد من المكتبات ، بما في ذلك:
تساهم هذه الميزات بشكل جماعي في توليد مقاطع فيديو متزامنة الشفاه من مطالبات نص الإدخال والصور ، مع دعم لمختلف اللغات والترجمات باللغة الإنجليزية.
بيثون 3.10.6
مفتاح API من Google AI.
FFMPEG مثبت.
Pytorch مثبتة. تأكد من دعم نظامك CUDA.
ImageMagick مثبت. هذا مطلوب لـ MoviePy.
تم تثبيت Sadtalker.
ملاحظة: تأكد من أن وحدة معالجة الرسومات الخاصة بك لديها ما لا يقل عن 4 جيجابايت VRAM بدعم من CUDA.
تثبيت Python 3.10.6:
تثبيت FFMPEG:
تثبيت ImageMagick:
استنساخ مستودع Autotalker:
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalkerقم بتنزيل Sadtalker مع النماذج والأوزان:
python download_models.pyقم بتشغيل الأمر أعلاه وانتظر حتى يظهر "التنزيلات المكتملة". سيؤدي ذلك إلى تنزيل Sadtalker جنبا إلى جنب مع النماذج والأوزان المطلوبة.
إنشاء بيئة افتراضية:
python -m venv venvتنشيط البيئة الافتراضية:
source venv/bin/activate. v env S cripts a ctivateتثبيت التبعيات:
pip install -r requirements.txtتثبيت Pytorch مع كودا:
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118الآن ، قمت بإعداد البيئة بنجاح للمشروع ، مما يضمن تلبية وحدة معالجة الرسومات الخاصة بك بالمتطلبات المحددة.
يحتوي المشروع على الهيكل التالي:
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
تنشيط البيئة الافتراضية:
تكوين مفتاح Gemini Pro API:
main.pygenai.configure(api_key="add your key here") ."add your key here" بمفتاح Gemini Pro API الفعلي.قم بتشغيل البرنامج النصي الرئيسي و Gradio Web UI:
iface.launch() جزء) من البرنامج النصي.تشغيل Autotalker وإطلاق Gradio:
python main.pyAccess Gradio Web UI:
استكشف الواجهة:
أرسل وانتظر:
مراجعة الإخراج:
استكشف ترجمات (إذا تم تمكينها):
كرر وتجربة:
أغلق واجهة المستخدم Gradio:
من خلال اتباع هذه الخطوات المدمجة ، يمكنك تشغيل Autotalker بسلاسة ، والتفاعل مع واجهة المستخدم على شبكة الإنترنت ، وتجربة مقاطع الفيديو الممتلة التي تم إنشاؤها.
نحن نقدر اهتمامك بالمساهمة في مشروعنا! لضمان تجربة سلسة وتعاونية ، يرجى اتباع هذه الإرشادات:
شوكة المستودع:
استنساخ المستودع:
git clone https://github.com/YourUsername/AutoTalker.gitإنشاء فرع:
git checkout -b feature/your-feature-nameإجراء تغييرات:
ارتكاب التغييرات:
git commit -m " Add your commit message here "دفع التغييرات:
git push origin feature/your-feature-nameإنشاء طلب سحب:
مراجعة والتعاون:
يرتفع الاسكواش (إذا لزم الأمر):
دمج:
المجالات التي تحتاج إلى مساعدة: تنفيذ TTS يشبه الإنسان
إذا كنت مهتمًا بإحداث تأثير كبير ، ففكر في المساهمة في تنفيذ نص إلى نص إلى خط للكراب (TTS) لمجموعة متنوعة من اللغات ، بما في ذلك اللغات الإقليمية الهندية. ركز على تعزيز قدرات TTS لكل من أصوات الذكور والإناث.
بالنظر إلى المشهد اللغوي المتنوع في الهند ، يتم تقدير المساهمات لدعم اللغات الإقليمية الهندية في TTS. قد تشمل هذه اللغات ، على سبيل المثال لا الحصر:
ستساهم جهودك في تنفيذ TTS لهذه اللغات بشكل كبير في جعل المحتوى التعليمي في متناول جمهور أوسع ، وخاصة في المناطق ذات الخلفيات اللغوية المتنوعة.
شكرًا لك على النظر في هذه المساهمات المهمة في تطبيق TTS الذي يشبه الإنسان! سوف يلعب عملك دورًا حيويًا في جعل المحتوى التعليمي شاملًا ومتاحًا للمتعلمين من خلفيات لغوية مختلفة. ؟
هذا المشروع مرخص بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.
يعترف هذا المشروع بالمشاريع التالية المفتوحة المصدر والمساهمين:
Google AI Python SDK: يمكّن Google AI Python SDK المطورين من استخدام نماذج AI التوليدية الحديثة (مثل الجوزاء والنخيل) لإنشاء ميزات وتطبيقات تعمل بنيو ذاهبة.
Sadtalker: [CVPR 2023] Sadtalker: تعلم معاملات الحركة ثلاثية الأبعاد واقعية للرسوم المتحركة المفردة التي تعتمد على الصوت. مشروع من قبل Opentalker.
Pedalboard: مكتبة Python للعمل مع الصوت ، تم تطويرها بواسطة Spotify.
الهمس: اعتراف قوي بالكلام عبر إشراف ضعيف على نطاق واسع ، وهو مشروع مفتوح المصدر من Openai.
المحولات عن طريق معانقة الوجه : ؟ Transformers: التعلم الآلي على أحدث طراز ل Pytorch و TensorFlow و Jax.
تسريع عن طريق العناق الوجه: طريقة بسيطة لتدريب واستخدام نماذج Pytorch مع GPU متعددة ، TPU ، الدقة المختلطة.
الأمثل من خلال معانقة الوجه: تسريع التدريب واستنتاج؟ المحولات و؟ الناشرون مع أدوات تحسين الأجهزة سهلة الاستخدام.
لحاء من Suno AI : ؟ نموذج الصوت التوليدي المقدم نص.
Pytorch: Tensors والشبكات العصبية الديناميكية في Python مع تسارع GPU قوي.
لقد ساهمت هذه المشاريع بشكل كبير في تطوير ووظائف Autotalker ، ونقدم امتناننا لمطوريهم والمحافظين.