La Universidad de Tsinghua y Tencent lanzan conjuntamente la arquitectura multimodal Oryx de código abierto para admitir entrada de vídeo ultralarga

Autor：Eve Cole Fecha de actualización：2025-03-07 06:25:01

En los últimos años, los modelos de lenguaje multimodal a gran escala han logrado avances significativos en el campo de la inteligencia artificial. Hoy, el editor de Downcodes presentará un modelo llamado ORYX, que fue desarrollado conjuntamente por investigadores de la Universidad de Tsinghua, Tencent y la Universidad Tecnológica de Nanyang y ha demostrado capacidades impresionantes en el campo del procesamiento visual. ORYX no es solo un simple sistema de reconocimiento de imágenes. Puede comprender la relación espacio-temporal en imágenes, videos y escenas 3D, e incluso puede discernir la historia detrás del contenido como los humanos. procesamiento visual. Echemos un vistazo más de cerca a lo que hace que ORYX sea único.

Hoy en día, con el rápido desarrollo de la inteligencia artificial, un modelo de lenguaje multimodal a gran escala llamado ORYX está cambiando silenciosamente nuestra comprensión de la capacidad de la IA para comprender el mundo visual. Este sistema de IA, desarrollado conjuntamente por investigadores de la Universidad de Tsinghua, Tencent y la Universidad Tecnológica de Nanyang, puede denominarse un transformador en el campo del procesamiento visual.

ORYX, el nombre completo de Oryx Multi-Modal Large Language Models, es un modelo de IA especialmente diseñado para procesar la comprensión espacio-temporal de imágenes, vídeos y escenas 3D. Su principal ventaja es que no sólo puede comprender el contenido visual como los humanos, sino también las conexiones entre el contenido y las historias detrás de él.

Uno de los aspectos más destacados de este sistema de inteligencia artificial es su capacidad para procesar información visual en cualquier resolución. Ya sean fotos antiguas borrosas o vídeos de alta definición, ORYX puede manejarlo fácilmente. Esto es gracias a su modelo previamente entrenado OryxViT, que puede convertir imágenes de diferentes resoluciones a un formato unificado comprensible para la IA.

Aún más sorprendentes son las capacidades de compresión dinámica de ORYX. Frente a una entrada de vídeo de larga duración, puede comprimir información de forma inteligente y retener contenido clave sin distorsión. Es como destilar un libro pesado en una rica tarjeta de notas, que no solo conserva la información central, sino que también mejora en gran medida la eficiencia del procesamiento.

El principio de funcionamiento de ORYX se basa principalmente en dos componentes principales: el codificador visual OryxViT y el módulo de compresión dinámica. El primero es responsable de procesar diversas entradas visuales, mientras que el segundo garantiza que los datos de gran capacidad, como los vídeos de larga duración, puedan procesarse de manera eficiente.

En aplicaciones prácticas, ORYX ha demostrado un potencial asombroso. No sólo puede comprender en profundidad el contenido del vídeo, incluidos objetos, tramas y acciones, sino también captar con precisión la posición y relación de los objetos en el espacio 3D. Esta capacidad de comprensión visual integral brinda posibilidades ilimitadas para la interacción futura entre humanos y computadoras, el monitoreo inteligente, la conducción autónoma y otros campos.

Vale la pena mencionar que ORYX ha obtenido buenos resultados en múltiples pruebas comparativas de lenguaje visual, especialmente en la comprensión espacial y temporal de imágenes, vídeos y datos 3D de vistas múltiples, lo que muestra importantes ventajas.

La innovación de ORYX no solo radica en sus poderosas capacidades de procesamiento, sino también en que abre un nuevo paradigma para la comprensión visual de la IA. Puede procesar entradas visuales con resolución nativa mientras procesa de manera eficiente videos largos a través de tecnología de compresión dinámica. Este tipo de flexibilidad y eficiencia es difícil de lograr con otros modelos de IA.

A medida que la tecnología continúa avanzando, se espera que ORYX desempeñe un papel más importante en el futuro campo de la IA. No sólo ayudará a las máquinas a comprender mejor nuestro mundo visual, sino que también puede proporcionar nuevas ideas para la simulación de procesos cognitivos humanos.

Dirección del artículo: https://arxiv.org/pdf/2409.12961

Las capacidades multimodales y los métodos de procesamiento eficientes de ORYX han brindado nuevas posibilidades al campo de la visión de la IA, y vale la pena esperar su desarrollo futuro. El editor de Downcodes cree que a medida que la tecnología siga madurando, ORYX desempeñará un papel importante en más campos y promoverá el progreso continuo de la tecnología de inteligencia artificial.