El equipo de Wu Jiajun en la Universidad de Stanford ha desarrollado una tecnología innovadora: "lenguaje de escena", que puede generar automáticamente modelos 3D realistas en solo una oración o una imagen. Esta tecnología integra hábilmente tres información: programa, texto y vectores integrados, utiliza modelos de lenguaje previamente capacitados para inferir automáticamente elementos de escena y genera escenas 3D de alta calidad a través del renderizador. No solo genera escenas 3D complejas, sino que también controla y edita con precisión la estructura de la escena, proporcionando comodidad sin precedentes para diseñadores y desarrolladores de juegos. Echemos un vistazo más profundo a esta increíble tecnología y sus amplias perspectivas de aplicaciones.
¿Todavía recuerdas las calificaciones 3D en las películas de ciencia ficción? La tecnología Stanford University *le permite generar automáticamente modelos 3D realistas con solo una oración para describir la escena.
¿Cuál es el lenguaje de la escena?
Imagina que vas a describir la misteriosa estatua de piedra Ahu Akivi en la isla de Pascua. Dirá: "Hay una fila de siete estatuas de Moai, frente a la misma dirección". Pero cada uno se ve ligeramente diferente ".

Este ejemplo nos dice que para describir completamente un escenario, se necesitan al menos tres tipos de información:
Información estructural: por ejemplo, "una fila de siete estatuas de piedra" puede describirse por programas similares a los lenguajes de programación;
Categoría Semántica: por ejemplo, "estatua de piedra Moai", se puede resumir en palabras;
Detalles de ejemplo: por ejemplo, la forma, el color y la textura específicos de cada estatua de piedra son difíciles de describir en palabras, pero pueden reconocerse a través de imágenes.
¡El lenguaje de escenario integra perfectamente estos tres tipos de información!
Programa: Use la sintaxis similar al lenguaje de programación para definir la relación jerárquica y el diseño espacial de los objetos en la escena, como la disposición de las estatuas de piedra Moai;
Texto: Describa la semántica de clase de cada objeto en el lenguaje natural, como la "estatua de piedra Moai";
Vectores de incrustación: use vectores generados por redes neuronales para capturar las características visuales de cada objeto, como la apariencia única de cada estatua de piedra.

¡Lo más sorprendente es que el lenguaje de la escena se puede generar automáticamente a través de modelos de lenguaje previamente capacitados! Genere escenas 3D de alta calidad.
¿Cuáles son las ventajas del lenguaje de escena?
En comparación con las representaciones tradicionales de gráficos de escenas, los idiomas de escenas pueden generar escenas más complejas y realistas, y pueden controlar y editar con precisión las estructuras de escenas. Por ejemplo, puede usar una oración para modificar las propiedades de un objeto en la escena, o agregar nuevos objetos, o incluso cambiar el estilo de toda la escena.
¿Cuáles son las aplicaciones de los idiomas de escenarios?
El lenguaje de la escena tiene amplias perspectivas de aplicaciones en los campos de la generación y edición de escenas 3D, como:
Generación de texto Escena 3D: ingrese una descripción de texto y la escena 3D correspondiente se puede generar automáticamente, como "un castillo en la cima de una montaña rodeada de densos bosques";
Escena 3D de generación de imágenes: ingrese una foto para reconstruir la escena 3D en la foto, como generar un modelo de sala de estar 3D basado en una foto de la sala de estar;
Generación de escenas 4D: se pueden generar escenas 4D que contienen información de dimensión de tiempo, como simular la rotación de una turbina eólica;
Edición de la escena: al modificar el programa de lenguaje de escena, el texto o el vector de incrustación, puede editar con precisión la escena, como cambiar el color, la posición o el tamaño de un objeto.
¿Cuál es la dirección de desarrollo futura del lenguaje de escena?
El lenguaje del escenario todavía está en sus primeras etapas de desarrollo, y todavía hay mucho espacio para el desarrollo en el futuro, como:
Capacidad de generación más poderosa: puede generar escenas más complejas y realistas, como contener más detalles y elementos interactivos más ricos;
Métodos de edición más convenientes: puede editar escenas en un lenguaje más natural e intuitivo, como el control de voz o gestos;
Amplia gama de aplicaciones: se puede aplicar a la realidad virtual, la realidad aumentada, el desarrollo de juegos, la producción de películas y otros campos.
Página de inicio del proyecto: https://ai.stanford.edu/~yzzhang/projects/scene-language/
Dirección en papel: https://arxiv.org/abs/2410.16770
En resumen, la tecnología de "lenguaje de escenario" ha traído cambios revolucionarios al campo del modelado 3D. Esperamos que esta tecnología nos brinde más sorpresas en el futuro.