تنزيل ai_trailer - تنزيل رمز المصدر ai

ai_trailer

شفرة المصدر الأخرى

1.0.0

تنزيل

توليد المقطورات التلقائي باستخدام الذكاء الاصطناعي

لقد كتبت اثنين من منشورات المدونة المتعلقة بهذا المشروع تأكد من التحقق منها

يصف إنشاء مقطورات أفلام مع الذكاء الاصطناعى المشروع بمزيد من التفاصيل
باستخدام Gemini 1.5 Pro لإنشاء مقطورات فيديو يستكشف استخدام إمكانيات الفيديو Gemini 1.5 Pro في هذا المشروع نفسه

لقد قمت أيضًا بتكييف هذا المشروع في مسابقة Kaggle "Google - Gemini Long Context" ، إذا كنت تريد إلقاء نظرة على المحتوى ، فاختر الروابط أدناه

فيديو تجول ملخص
فيديو تجول كامل
دفتر Kaggle
دفتر جوجل كولاب

تتمثل فكرة هذا المستودع في إنشاء عدد من المرشحين لمقطع فيديو معين تلقائيًا ، ويحتاج المستخدم فقط إلى توفير ملف الفيديو واثنين من المعلمات النصية ، ويتم العناية بكل شيء آخر.

كيف يعمل؟

أولاً ، نأخذ مؤامرة الفيديو اختياريًا في IMDB ونقسمها إلى مخططات فرعية ، بدلاً من أخذها من IMDB ، يمكنك أيضًا تقديم مؤامرة خاصة بك أو تعديلها ، وسوف تصف تلك المخططات الفرعية الأجزاء الرئيسية تقريبًا من الفيديو ، وبعد ذلك ، ننشئ صوتًا لكل مخطط فرعي. الآن وبعد أن أصبح لدينا الجزء المنطوق من المقطورة ، نحتاج فقط إلى تناول مقاطع قصيرة تقابل كل مخطط فرعي وتطبيق الصوت عليها ، فإننا نفعل ذلك عن طريق أخذ عينات من العديد من الإطارات من الفيديو ونأخذ بعض الإطارات الأكثر تشابهًا إلى كل مخطط فرعي ، مع هذا ، لدينا الصور التي تمثل كل مخطط فرعي أفضل ، والخطوة التالية هي اتخاذ مقطع لبدء ثوانٍ تبدأ من كل إطار. بعد إنشاء الجزء الصوتي والبصري من المقطورة ، نحتاج فقط إلى الجمع بين كل صوت مع المقطع المقابل ونضم أخيرًا جميع المقاطع معًا في المقطورة النهائية.

ستقوم كل هذه الخطوات بإنشاء ملفات وسيطة يمكنك فحصها وإزالة ما لا تحب تحسين النتائج يدويًا.

ملاحظة: مع المعلمات الافتراضية ، لكل حبكة فرعية فقط سيتم إنشاء مقطع واحد وبالتالي إنشاء مرشح واحد فقط. إذا كنت ترغب في إنشاء المزيد من المرشحين للمقطورة أو لديك المزيد من الخيارات من Audios والمقاطع للاختيار من بينها ، فيمكنك زيادة n_audios و n_retrieved_images ، فقط ضع في اعتبارك أن مرشحين المقطورة يزدادون هندسيًا مع هذا ، من أجل المقطورة n_audios = 3 و n_retrieved_images = 3 ستحصل على 9 (3 **).

أمثلة

ليلة الميت الأحياء (1968)

Nosferatu (1922)

مفارقة فيرمي - أين جميع الأجانب؟

متحف التاريخ الطبيعي (معرض ديناصور جديد) جولة سيرا على الأقدام في 4K - واشنطن العاصمة

Changelog

2024/03/03 - أضاف الدعم لإنشاء مقطورات لأي فيديو وليس فقط أفلام.
2024/03/07 - إضافة دعم لتنزيل مقاطع الفيديو من YouTube.

الاستخدام

النهج الموصى به لاستخدام هذا المستودع هو مع Docker ، ولكن يمكنك أيضًا استخدام VenV مخصص ، فقط تأكد من تثبيت جميع التبعيات.

يحتاج المستخدم فقط إلى توفير مدخلتين ، ملف الفيديو ومعرف IMDB من هذا الفيديو. بعد ذلك ، يمكنك الانتقال إلى ملف configs.yaml وضبط القيم وفقًا لذلك ، سيكون video_id معرف IMDB ، ويجب أن يشير video_path إلى ملف الفيديو ، وقد ترغب أيضًا في تحديث project_name إلى اسم الفيديو الخاص بك وتقديم صوت مرجعي مع reference_voice_path .

كيف تحصل على معرف IMDB للفيديو؟

سيبدو عنوان URL الخاص بأي فيلم في IMDB مثل "https://www.imdb.com/title/tt0063350" ، وسيكون المعرف هو الجزء الصحيح بعد title/ ، في هذه الحالة من أجل "Night of the Living Dead" ، سيكون 0063350 ، IMDB يحتوي بشكل رئيسي على إعلانات الفيلم ولكن يمكنك أيضًا العثور على سلسلة من الحلقات وغيرها.

سير عمل التطبيق

استرجاع الفيديو (اختياري): قم بتنزيل الفيديو من YouTube
استرجاع المؤامرة (اختياري): احصل على مؤامرة الفيديو من IMDB
انقسام الحمل الفرعي: اقسم المؤامرة إلى مخططات فرعية
توليد الصوت: قم بإنشاء صوت لكل مخطط فرعي
أخذ عينات الإطار: عينة من إطارات متعددة من الفيديو
ترتيب الإطار: حدد الإطارات الأكثر تشابهًا مع كل حبكة فرعية
مقطع: قم بإنشاء مقطع فيديو لكل إطار محدد
مقطع صوتي: أضف الصوت الذي تم إنشاؤه في الخطوة 2 إلى كل مقطع مقابل
انضم إلى مقطع: انضم إلى جميع مقاطع الصوت لبناء المقطورة

التكوينات

 project_dir: 'projects'
project_name: Natural_History_Museum
video_path: 'movies/Natural_History_Museum.mp4'
plot_filename: 'plot.txt'
video_retrieval:
  video_url: 'https://www.youtube.com/watch?v=fdcEKPS6tOQ'
plot_retrieval:
  video_id: 
subplot:
  split_char:
voice:
  model_id: 'tts_models/multilingual/multi-dataset/xtts_v2'
  device: cpu
  reference_voice_path: 'voices/sample_voice.wav'
  tts_language: en
  n_audios: 1
frame_sampling:
  n_frames: 500
frame_ranking:
  model_id: 'clip-ViT-B-32'
  device: cpu
  n_retrieved_images: 1
  similarity_batch_size: 128
clip:
  min_clip_len: 3
audio_clip:
  clip_volume: 0.1
  voice_volume: 1.0

Project_dir : مجلد سيستضيف جميع مشاريعك
Project_name : اسم المشروع والمجلد الرئيسي ، يمكن أن يكون أي اسم تريده
video_path : مسار إلى ملف الفيديو
plot_filename : اسم الملف الذي سيحتفظ بمؤامرة الفيديو
video_retrival :
- video_url : عنوان URL الاختياري من فيديو YouTube
plot_retrival :
- video_id : معرف IMDB اختياري للفيديو
الحبكة الفرعية :
- Split_char : حرف اختياري يستخدم لتقسيم نص المؤامرة
صوت :
- Model_id : معرف وضع TTS ، أنا هنا أستخدم Coqui AI
- الجهاز : الأجهزة المستخدمة من قبل TTS ونماذج التشابه ، وعادة ما تكون واحدة من (وحدة المعالجة المركزية ، CUDA ، MPS)
- Reference_voice_path : مسار إلى ملف الصوت المرجعي (الصوت الذي سيتم استنساخه)
- TTS_Language : مدخلات اللغة لنموذج TTS
- n_audios : عدد الصوت لإنشاء لكل حبكة فرعية
Frame_sampling :
- N_Frames : عدد الإطارات التي يجب عينة من الفيديو
Frame_ranking :
- Model_id : نموذج التشابه المستخدم في تصنيف الإطارات
- الجهاز : الأجهزة المستخدمة من قبل TTS ونماذج التشابه ، وعادة ما تكون واحدة من (وحدة المعالجة المركزية ، CUDA ، MPS)
- n_retried_images : عدد الإطارات المستردة لكل مخطط فرعي
- التشابه _batch_size : حجم الدُفعة المستخدمة بواسطة نموذج التشابه لتضمين الإطارات
مقطع :
- min_clip_len : الحد الأدنى لطول مقطع
Audio_clip :
- Clip_volume : النسبة المئوية من حجم المقطع الأصلي المراد الاحتفاظ به للمقطع النهائي
- Voice_volume : النسبة المئوية لحجم الصوت الذي تم إنشاؤه ليتم الاحتفاظ به للمقطع النهائي