Doyentalker
Doyentalker هو مشروع يستخدم تقنيات التعلم العميق لإنشاء مقاطع فيديو شخصية شخصية تتحدث عن نص مقدم من المستخدم بصوت محدد. يستخدم النظام Coqui TTS لتوليد النص إلى كلام ، إلى جانب العديد من تقنيات عرض الوجه والرسوم المتحركة لإنشاء مقطع فيديو حيث يوضح الصورة الرمزية المعطاة الخطاب.
سمات
- نص إلى كلام (TTS) : يحول رسالة نصية مقدمة من المستخدم إلى خطاب باستخدام محرك Coqui TTS.
- الرسوم المتحركة المستندة إلى الصورة الرمزية : تنشئ مقطع فيديو حيث يتحدث الصورة الرمزية التي اختارها المستخدم عن الكلام الذي تم إنشاؤه.
- الصوت القابل للتخصيص : يمكن للمستخدمين تحديد عينة صوتية لجعل الصورة الرمزية تتحدث بهذا الصوت.
- الدعم متعدد اللغات : يدعم لغات متعددة لتوليف الكلام (الإنجليزية والإسبانية والفرنسية والألمانية والمزيد).
- عرض الوجه : يتضمن مقاطع فيديو مرجعية تشكل وعلم العين لتعزيز واقعية تعبير الوجه.
- معالجة الدُفعات : تدعم توليد مقاطع الفيديو على دفعات ، مفيدة لمعالجة النصوص الطويلة عن طريق تقسيمها إلى أجزاء أصغر.
- محسّن الوجه (اختياري) : يستخدم اختياريًا نماذج تحسين الوجه مثل GFP-GAN أو Restoreformer لتحسين جودة وجه الصورة الرمزية التي تم إنشاؤها.
- محسن الخلفية (اختياري) : يستخدم real-eSRGAN لتعزيز صور الخلفية في الفيديو الذي تم إنشاؤه.
كيف تعمل
- نص الإدخال : يوفر المستخدم رسالة نصية يريدون أن يتكلم الآلهة. يتم تقسيم النص إلى قطع يمكن التحكم فيها إذا تجاوز طولًا معينًا ، مما يضمن معالجة فعالة.
- الصورة الرمزية : يتم تحديد صورة الصورة الرمزية ، والتي سيتم استخدامها كتمثيل مرئي للشخصية التي ستتحدث النص. يقوم النظام بمعالجة هذه الصورة لإعدادها للرسوم المتحركة.
- عينة الصوت : يتم توفير عينة صوتية من قبل المستخدم. سيتم استخدام هذا الصوت لإنشاء الكلام للرسالة النصية. يمكن للمستخدم الاختيار من بين مجموعة متنوعة من اللغات والخيارات الصوتية التي تدعمها Coqui TTS ، مثل اللغة الإنجليزية والإسبانية والفرنسية والألمانية وغيرها.
- توليد الكلام (Coqui TTS) : باستخدام Coqui TTS ، يقوم النظام بإنشاء الكلام من نص الإدخال في الصوت المحدد. يتم تقسيم الكلام عبر ملفات صوتية متعددة إذا كان النص قد تم قطعه.
- عرض الوجه والرسوم المتحركة : يتم تحريك وجه الصورة الرمزية لمطابقة الكلام الذي تم إنشاؤه. يقوم النظام بمعالجة الصورة الرمزية باستخدام تقنيات استخراج 3DMM (3D Morphable) لالتقاط تعبيرات الوجه. كما أنه يدمج مقاطع الفيديو المرجعية لحركات العيوب والرأس لضمان الرسوم المتحركة ذات المظهر الطبيعي.
- توليد الفيديو : أخيرًا ، يتم دمج الصورة الرمزية الصوتية والرسوم المتحركة في مقطع فيديو. يمكن تقديم مقطع الفيديو باستخدام مخصصات مخصصة ، وتعبيرات الوجه ، والصور المرئية المحسنة باستخدام تقنيات تعزيز الوجه والخلفية الاختيارية.
- مقطع الفيديو الإخراج : النتيجة هي مقطع فيديو يتحدث فيه الصورة الرمزية بدقة عن نص الإدخال في الصوت المحدد للمستخدم.
تثبيت
هذه الخطوات تحتاج إلى متابعة بعد استنساخ git.
uv venv
.venv S cripts a ctivate
uv pip install -r requirements.txt
python main.py --message_file " /content/drive/MyDrive/voice_cloning_data/test_message.txt " --voice " /content/DoyenTalker/backend/assets/voice/ab_voice.mp3 " --lang en --avatar_image " /content/DoyenTalker/backend/assets/avatar/male10.jpeg "
العرض التوضيحي
tramp_student.mp4
modi_social_media.mp4