أصدرت شركة Jiji Technology مؤخرًا إطار عمل DriveDreamer4D، والذي يهدف إلى استخدام النموذج العالمي لتحسين تأثير إعادة بناء مشهد القيادة رباعي الأبعاد. تعتمد الأساليب التقليدية مثل NeRF و3DGS على كمية كبيرة من بيانات التدريب ويكون أداؤها سيئًا عند التعامل مع ظروف الطريق المعقدة. يقوم DriveDreamer4D بإنشاء بيانات تدريب أكثر تنوعًا من خلال تقديم نموذج عالمي ووحدة توليد مسار جديدة (NTGM)، والتي تعمل على تحسين دقة وقوة إعادة بناء المشهد رباعي الأبعاد بشكل كبير، مما يحقق اختراقات جديدة في أبحاث وتطوير القيادة الذاتية.
اقترحت شركة Jiji Technology مؤخرًا إطارًا جديدًا يسمى DriveDreamer4D، والذي يهدف إلى استخدام المعرفة السابقة بالنموذج العالمي لتحسين تأثير إعادة البناء لمشاهد القيادة رباعية الأبعاد.
تعتمد الطرق التقليدية لإعادة بناء المشهد رباعي الأبعاد بشكل أساسي على المدرستين الرئيسيتين NeRF و3DGS. يشبه NeRF الرسام الفائق الذي يمكنه استخدام الشبكات العصبية لعرض مجموعة من الصور في نموذج ثلاثي الأبعاد. يستخدم برنامج 3DGS مجموعة من الوظائف الغوسية ثلاثية الأبعاد لمحاكاة الكائنات المختلفة في المشهد.

لكن كلتا الطريقتين بها نقطة ضعف قاتلة: فهي تعتمد كثيرًا على بيانات التدريب، على سبيل المثال، إذا رأيت فقط سيارات تسير في خط مستقيم، وفجأة تنحرف عند الزاوية، فسوف تشعر بالارتباك! ولذلك، فهي عرضة للانقلاب عند مواجهة ظروف الطريق المعقدة، مثل تغيير المسارات، والتسارع، والتباطؤ.
من أجل حل هذه المشكلة، أطلقت شركة Jiji Technology قاتلًا كبيرًا هذه المرة - DriveDreamer4D. بكل بساطة، هذا الشيء عبارة عن مكون إضافي للذكاء الاصطناعي لإعادة بناء المشهد رباعي الأبعاد - نموذج عالمي.

يمكنك فهم النموذج العالمي باعتباره عقلًا يعمل بالذكاء الاصطناعي يمكنه التنبؤ بما قد يحدث في المستقبل بناءً على البيانات الموجودة. يستخدم DriveDreamer4D النموذج العالمي لإنشاء بيانات فيديو منظورية جديدة في ظل ظروف طريق معقدة مختلفة، وهو ما يعادل تغذية نموذج إعادة بناء المشهد رباعي الأبعاد ببيانات التدريب "المكملة للدماغ"، بحيث يكون مطلعًا جيدًا ولن يتدحرج بعد الآن.
والأمر الأكثر روعة هو أن DriveDreamer4D صمم أيضًا وحدة توليد مسار جديدة (NTGM) خصيصًا. يمكن لهذا الشيء تلقائيًا إنشاء مسارات جديدة مختلفة تتوافق مع قواعد المرور، مثل تغيير المسار والتسارع والتباطؤ وما إلى ذلك، ثم استخدم النموذج العالمي لإنشاء مقاطع فيديو من المنظور المقابل، وهو ما يعادل تعيين "شريك توفير" لنموذج إعادة بناء المشهد رباعي الأبعاد مما يسمح له بالتعامل مع مختلف ظروف الطريق المعقدة بسهولة.
تثبت النتائج التجريبية أيضًا قوة DriveDreamer4D. عند التعامل مع ظروف الطريق المعقدة، يكون تأثير إعادة البناء أفضل بكثير من الطرق التقليدية، وتكون دقة الصور التي تم إنشاؤها أعلى، ويمكن استعادة مواقع المركبات وخطوط الحارات بدقة.
وبشكل عام، فإن ظهور DriveDreamer4D يشبه إسقاط قنبلة نووية في مجال إعادة بناء المشهد رباعي الأبعاد، مما يؤدي إلى تفجير السقف التقني بشكل مباشر. ومع ذلك، سيكون البحث والتطوير واختبار القيادة الذاتية أكثر كفاءة وأمانًا وموثوقية.
بالطبع، DriveDreamer4D لا يزال في مرحلة البحث، ولا يزال هناك العديد من المجالات التي تحتاج إلى تحسين في المستقبل. لكنني أعتقد أنه مع استمرار تطور التكنولوجيا، فإنها ستصبح أكثر قوة وستصبح في النهاية جزءًا لا غنى عنه في مجال القيادة الذاتية.
عنوان الورقة: https://arxiv.org/pdf/2410.13571
الصفحة الرئيسية للمشروع: https://drivedreamer4d.github.io/
عنوان الرمز: https://github.com/GigaAI-research/DriveDreamer4D
يعتقد محرر Downcodes أن ظهور DriveDreamer4D يمثل علامة فارقة جديدة في تكنولوجيا إعادة بناء المشهد رباعي الأبعاد، كما أن آفاق تطبيقه في مجالات مثل القيادة الذاتية واسعة وتستحق الاهتمام والترقب المستمر. في المستقبل، مع استمرار نضج التكنولوجيا، أعتقد أن DriveDreamer4D سيلعب دورًا أكبر.