En los últimos años, los modelos de idiomas grandes (LLM) han logrado avances en el campo de la inteligencia artificial, especialmente en la fusión multimodal. Un equipo conjunto de la Universidad de Ciencia y Tecnología de Huazhong, Bytedance y la Universidad de Hong Kong, recientemente propusieron un innovador marco de generación multimodal: líquido, con el objetivo de resolver las limitaciones de los modelos multimodales actuales en el procesamiento visual. La aparición de esta tecnología marca el desarrollo adicional de la inteligencia artificial en el campo multimodal.
Las maquetas multimodales tradicionales a menudo dependen de módulos de visión externos complejos, lo que no solo aumenta la complejidad del sistema, sino que también limita su escalabilidad y flexibilidad. La innovación de Liquid es que adopta VQGAN como un segmentador de palabras de imagen y abandona su dependencia de los componentes visuales externos. Al codificar la imagen en tokens visuales discretos, Liquid permite que el modelo comparta la lista de palabras directamente con los tokens de texto, logrando así la comprensión visual "nativa" y las capacidades de generación. Este diseño simplifica enormemente la estructura del modelo al tiempo que mejora su escalabilidad.
El estudio encontró que el líquido no solo reduce significativamente los costos de capacitación, sino que también revela las reglas de escala de las capacidades multimodales y LLM. El equipo de investigación realizó experimentos en LLM de diferentes tamaños (de 0.5B a 32B). Los resultados mostraron que a medida que la escala del modelo se expandió, el rendimiento y la calidad de generación de sus tareas de generación visual siguieron un patrón de escala consistente con las tareas del lenguaje. Lo que es aún más emocionante es que existe una relación de facilitación bidireccional entre la comprensión visual y las tareas generativas, es decir, los dos pueden lograr la optimización conjunta a través de un espacio de representación compartido. Este descubrimiento proporciona una base teórica importante para el diseño de modelo multimodal futuro.
El diseño de Liquid encarna completamente el minimalismo, tratando imágenes y texto por igual, adoptando un marco de procesamiento unificado. Durante el proceso de construcción, el equipo de investigación utilizó datos de texto de 30 m y datos de texto de imagen de 30 m para sentar las bases para la capacitación multimodal del modelo. Los resultados experimentales finales muestran que el líquido tiene un excelente rendimiento en la comprensión multimodal, la generación de imágenes y las tareas de texto plano, y la consistencia semántica entre las imágenes generadas y el texto es significativamente mayor que otros modelos autorregresivos. Este resultado demuestra el gran potencial de líquido en aplicaciones prácticas.
La propuesta de Liquid proporciona nuevas ideas para el diseño arquitectónico de la inteligencia multimodal general, lo que indica que la inteligencia artificial puede generar evolución más eficiente y flexible en el futuro de la fusión multimodal. El éxito de esta tecnología no solo promueve la investigación en el campo multimodal, sino que también abre nuevas posibilidades para la aplicación de inteligencia artificial en escenarios más prácticos.
Enlace en papel: https://arxiv.org/pdf/2412.04332