تخيل أن النص لم يعد يقتصر على مستوى ثنائي الأبعاد، ولكن يمكن رشه في مساحة ثلاثية الأبعاد مثل الطلاء والتفاعل مع العالم الحقيقي، كيف سيكون شكله؟ قامت فرق البحث من جامعة تسينغهوا وجامعة هارفارد بتطوير تقنية سوداء مذهلة - LangSplat، والتي تحقق اختراقًا في الاستعلام عن النص المفتوح في العالم الحقيقي. تستخدم هذه التقنية تقنية Gaussian Splash ثلاثية الأبعاد لجعل النص "حيًا" في مساحة ثلاثية الأبعاد، مما يؤدي إلى تغييرات ثورية في فهم المشهد ثلاثي الأبعاد والتفاعل معه.
في هذا العالم ثلاثي الأبعاد، نستخدم الكلمات لوصف كل شيء ونستخدم اللغة لاستكشاف العالم. ولكن هل فكرت يومًا كيف سيكون الأمر لو أمكن "رش" النص مباشرةً في مساحة ثلاثية الأبعاد؟
في الآونة الأخيرة، قام كبار الأكاديميين من جامعة تسينغهوا وجامعة هارفارد بتطوير مثل هذه التكنولوجيا السوداء - LangSplat. يستخدم تقنية الرش الغاوسي ثلاثي الأبعاد لجعل النص "حيًا" في مساحة ثلاثية الأبعاد وتحقيق الاستعلام النصي المفتوح في العالم الحقيقي.

عنوان المشروع: https://github.com/minghanqin/LangSplat
تخيل أنك تلعب لعبة ثلاثية الأبعاد وتريد العثور على سيف مخفي. ما عليك سوى إدخال كلمة "سيف"، وسيتمكن LangSplat من تحديد موقعه بدقة في المشهد الواسع. أليس هذا مذهلاً؟
قفزة مزدوجة في السرعة والدقة
أكبر ما يميز LangSplat هو سرعته ودقته.
السرعة: بدقة 1080 بكسل، تكون سرعة الاستعلام أسرع 200 مرة من الطرق التقليدية، وهذا يعني أنه يمكنك الحصول على تعليقات على الفور دون الحاجة إلى انتظار شريط التقدم.
الدقة: من خلال التعلم الدلالي الهرمي، يجعل المجال الدلالي ثلاثي الأبعاد أكثر وضوحًا ولم تعد حدود الهدف ضبابية. إنه مثل استخدام عدسة مكبرة لمراقبة التفاصيل، حيث يتم الكشف عن كل زاوية.
التكنولوجيا السوداء وراء التكنولوجيا
تشمل تقنيات LangSplat الأساسية ما يلي:
التعلم الدلالي الهرمي: استخدم نموذج Segment Anything Model (SAM) لتعلم دلالات متعددة المستويات من الكل إلى الجزء، بحيث يمكن التعرف على كل كائن بدقة.
دفقة غاوسية ثلاثية الأبعاد: في الفضاء ثلاثي الأبعاد، يُستخدم التوزيع الغوسي لتمثيل المعلومات الدلالية، وكل نقطة غاوسية تشفر ميزات دلالية غنية.
التشفير التلقائي للمشهد: من أجل حل مشكلة تخزين الميزات عالية الأبعاد، قامت LangSplat ببناء جهاز تشفير تلقائي خاص بالمشهد لتقليل أبعاد الميزات الدلالية، والذي لا يوفر الذاكرة فحسب، بل يعمل أيضًا على تحسين الكفاءة.
آفاق التطبيق غير محدودة
لقد فتح ظهور LangSplat بابًا جديدًا لفهم المشهد ثلاثي الأبعاد. سواء كان الأمر يتعلق بالملاحة الآلية أو الواقع المعزز أو التحرير ثلاثي الأبعاد، يمكنه إظهار مواهبه.
تخيل أنك في المستقبل تلعب لعبة واقع افتراضي غامرة، ويمكنك توجيه الروبوت للعثور على الكنوز بكلماتك فقط. أو إذا كنت تقوم بتصميم نموذج ثلاثي الأبعاد، فيمكنك تعديل المعلمات بسرعة من خلال اللغة. كل هذا لم يعد حلما.
لقد أحدث ظهور LangSplat بلا شك تغييرات ثورية في التفاعل بين العالم ثلاثي الأبعاد واللغة البشرية. إن آفاق تطبيقه في الألعاب والروبوتات وAR/VR وغيرها من المجالات لا تُحصى هذه التكنولوجيا.