تنتجها التعريف! PIPPO: أدخل صورة حرف واحد وينتج صورًا عالية الدقة متعددة الرؤية-مقالات منظمة العفو الدولية

الكاتب：Eve Cole وقت التحديث：2025-02-17 18:32:01

أعلن فريق أبحاث Meta Reality Labs مؤخرًا عن إطلاق نموذج توليدي مبتكر يسمى "Pippo" ، والذي يمكن أن يولد مقاطع فيديو مبيعات مكثفة بدقة تصل إلى 1K من صورة عادية واحدة. لا يوضح هذا الاختراق التكنولوجي أحدث التطورات في مجال رؤية الكمبيوتر ، ولكن أيضًا يجلب إمكانيات جديدة لتكنولوجيا توليد الصور.

يكمن الابتكار الأساسي لنموذج PIPPO في تصميم محول انتشارها متعدد الرؤية. على عكس النماذج التوليدية التقليدية ، لا يحتاج Pippo إلى الاعتماد على بيانات الإدخال الإضافية مثل نماذج المعلمات المناسب أو معلمات الكاميرا. يحتاج المستخدمون فقط إلى توفير صورة واحدة ، ويمكن للنظام تلقائيًا إنشاء تأثيرات فيديو متعددة العرض ، وبالتالي تقديم صورة شخصية أكثر حيوية وثلاثية الأبعاد.

لراحة المطورين ، يتم إصدار Pippo كإصدار رمز فقط هذه المرة ، دون أوزان قبل التدريب. قدم فريق البحث نماذج كاملة ، وملفات التكوين ، ورموز الاستدلال ، ورموز التدريب عينة لمجموعة بيانات AVA-256. يمكن للمطورين بدء تدريب النماذج وتطوير التطبيقات بسرعة من خلال استنساخ الأوامر البسيطة وإعداد قواعد التعليمات البرمجية.

تتضمن الخطط المستقبلية لمشروع PIPPO إجراء مزيد من الترتيب وتحسين البرامج البرمجية للاستدلال ونشرات الاستدلال للنماذج التي تم تدريبها مسبقًا. ستعمل هذه التحسينات على تحسين تجربة المستخدم بشكل كبير وتعزيز شعبية واسعة النطاق لهذه التكنولوجيا في التطبيقات العملية.

رابط المشروع: https://github.com/facebookresearch/pippo

النقاط الرئيسية:

طراز Pippo قادر على إنشاء مقاطع فيديو متعددة الرؤية عالية الدقة من صورة عادية واحدة دون إدخال إضافي.

يتم نشر الكود فقط ولا يتضمن أوزان ما قبل التدريب.

يخطط الفريق لإطلاق المزيد من الميزات والتحسينات في المستقبل لتعزيز تجربة المستخدم.