هل سبق لك أن تتوق إلى المشاهد الجميلة في صور ثنائية الأبعاد وتتوق لتجربة تلك الصور الساحرة مباشرة؟ الآن ، من المتوقع أن يصبح هذا الحلم حقيقة واقعة! على CVPR2025 ، ظهرت دراسة رئيسية تسمى MIDI (انتشار متعدد الثابت للصورة الفردية لتوليد المشهد ثلاثي الأبعاد ، صورة فردية نشر متعددة إلى توليد مشهد ثلاثي الأبعاد). هذه التكنولوجيا مثل الساحر الماهر. من خلال صورة ثنائية الأبعاد عادية ، يمكنك إنشاء مشهد ثلاثي الأبعاد 360 درجة 360 درجة.
تخيل أنك أخذت زاوية من مقهى مع أشعة الشمس المشرقة ، مع طاولات وكراسي رائعة ، أكواب القهوة العطرية ، وتأرجح الأشجار خارج النافذة. في الماضي ، كانت هذه مجرد صورة ثابتة ثابتة. ولكن مع MIDI ، تحتاج فقط إلى "إطعام" هذه الصورة ، وما يحدث بعد ذلك يمكن تسميته "تحويل الحجارة إلى الذهب".
ميدي يعمل بذكاء جدا. أولاً ، تقوم بذكاء بتقسيم الصورة الفردية للمدخلات ، تمامًا مثل فنان ذي خبرة ، قادر على تحديد العناصر المستقلة المختلفة في المشهد بدقة ، مثل الجداول والكراسي وأكواب القهوة ، وما إلى ذلك. ستصبح هذه الأجزاء "المفككة" ، مع معلومات بيئة المشهد الشاملة ، أساسًا مهمًا لإنشاء مشاهد 3D.
على عكس بعض الطرق الأخرى لإنشاء كائنات ثلاثية الأبعاد واحدة تلو الأخرى ، ثم الجمع بينها ، تعتمد MIDI طريقة أكثر كفاءة وذكية في الانتشار المتزامن متعدد الأنواع. هذا يعني أنها قادرة على تصميم كائنات متعددة ثلاثية الأبعاد في المشهد في نفس الوقت ، والتي تشبه الأوركسترا التي تلعب أدوات مختلفة في نفس الوقت ، في نهاية المطاف تتلاقى إلى حركة متناغمة.
الأمر الأكثر إثارة للدهشة هو أن MIDI يقدم أيضًا آلية اهتمام جديدة متعددة الخطوات. هذه الآلية مثل "حوار" بين كائنات مختلفة في المشهد. يمكن أن يلتقط بشكل فعال التفاعل والعلاقة المكانية بين الكائنات ، مما يضمن أن المشهد ثلاثي الأبعاد الذي تم إنشاؤه لا يحتوي فقط على كائنات مستقلة ، ولكن الأهم من ذلك ، أن الموضع والتأثير المتبادل بينهما منطقي ومدمج. تتجنب هذه القدرة على النظر بشكل مباشر في العلاقة بين الكائنات أثناء عملية التوليد خطوات ما بعد المعالجة المعقدة في الأساليب التقليدية ويحسن الكفاءة والشعور بالواقع بشكل كبير.
يمكن لـ MIDI إنشاء مثيلات ثلاثية الأبعاد مؤلفة مباشرة من صورة واحدة دون معالجة متعددة المراحل معقدة. يقال إن عملية المعالجة بأكملها تستغرق 40 ثانية فقط في أسرع ، وهي بالتأكيد نعمة للمستخدمين الذين يتابعون الكفاءة. من خلال إدخال طبقة انتباه متعددة الخطوط وطبقة متشابكة ، يمكن لـ MIDI فهم معلومات السياق الخاصة بالمشهد العالمي تمامًا ودمجها في عملية توليد كل كائن ثلاثي الأبعاد مستقل ، وبالتالي ضمان التنسيق العام للمشهد وثراء التفاصيل.
أثناء عملية التدريب ، تستخدم MIDI بذكاء بيانات محدودة على مستوى المشهد للإشراف على التفاعل بين مثيلات ثلاثية الأبعاد ، ودمج كمية كبيرة من بيانات الكائن الفردي للتنظيم ، والتي تسمح لها بإنشاء نماذج ثلاثية الأبعاد تتوافق بدقة مع منطق المشهد مع الحفاظ على إمكانيات التعميم الجيدة. تجدر الإشارة إلى أن تفاصيل نسيج المشهد ثلاثي الأبعاد الذي تم إنشاؤه بواسطة MIDI ليس أقل شأنا ، وذلك بفضل تطبيق التقنيات مثل MV-Adapter ، مما يجعل المشهد ثلاثي الأبعاد النهائي يبدو أكثر واقعية وموثوقة.
يمكن توقع أن ظهور تقنية MIDI سوف ينطلق موجة جديدة في العديد من المجالات. سواء أكان ذلك هو تطوير اللعبة أو الواقع الافتراضي أو التصميم الداخلي أو الحماية الرقمية للآثار الثقافية ، ستوفر MIDI طريقة جديدة وفعالة ومريحة للمحتوى ثلاثي الأبعاد. تخيل أنه في المستقبل ، قد نحتاج فقط إلى التقاط صورة لبناء بيئة ثلاثية الأبعاد تفاعلية بسرعة لتحقيق "نقل زمني بنقرة واحدة".
مدخل المشروع: https://huangzh.github.io/midi-page/