Recientemente, Alibaba Tongyi Lab anunció el código abierto de su último resultado de I + D: Vidorag, un sistema de generación mejorada (RAG) de búsqueda diseñado específicamente para la comprensión de documentos visuales. La prueba de Vidorag en el modelo GPT-4O mostró que su tasa de precisión alcanzó un impresionante 79.4%, que es más del 10% más alto que los sistemas de RAG tradicionales. Este avance marca un paso importante en el campo del procesamiento de documentos visuales y proporciona nuevas posibilidades para la aplicación de la inteligencia artificial en la comprensión compleja de documentos.

Vidorag no es un modelo único tradicional, pero adopta un innovador diseño de marco de múltiples agentes. El sistema combina agentes de inferencia iterativa dinámica y tecnología de recuperación híbrida basada en GMM (modelo híbrido gaussiano). Este enfoque permite que Vidorag extraiga e infiera información clave con mayor precisión al procesar documentos visuales que contienen imágenes y texto. En comparación con las limitaciones de los sistemas de RAG tradicionales que se basan únicamente en la recuperación de texto, Vidorag mejora significativamente el rendimiento a través de la fusión de datos multimodales.
Tongyi Lab describe en detalle cómo funciona Vidorag en sus artículos publicados y repositorio de código. Su núcleo radica en ajustar dinámicamente el proceso de búsqueda y generación a través de la colaboración de múltiples agentes, reduciendo así los fenómenos de "ilusión" en escenarios complejos (es decir, el modelo genera contenido inexacto o fabricado) y mejorando la confiabilidad y la relevancia contextual de las respuestas.
El sistema tiene una precisión del 79.4% en GPT-4O, una cifra que no solo demuestra su excelente rendimiento, sino que también lo compara con los sistemas de trapo tradicionales. Si bien los sistemas de RAG tradicionales funcionan bien en las tareas de generación de texto, a menudo se limitan a la capacidad de recuperación de un solo modo al procesar documentos visuales, y su precisión generalmente se desplaza a un nivel bajo. Vidorag ha aumentado la tasa de precisión en más de 10 puntos porcentuales al introducir la integración profunda de la información visual y la información de texto. Este avance es de gran importancia para los escenarios que requieren una comprensión de documentos de alta precisión, como el análisis de documentos legales, la interpretación del informe médico y el procesamiento de datos empresariales.
El movimiento del laboratorio de Alibaba Tongyi al código abierto Vidorag también ha provocado discusiones acaloradas en Twitter. Los usuarios creen que la divulgación de este sistema no solo refleja la fuerza técnica de Alibaba en el campo de la IA, sino que también proporciona un recurso valioso para los desarrolladores e investigadores globales. A través de documentos y códigos públicos (se han compartido enlaces relevantes en las publicaciones de Twitter), se espera que Vidorag acelere la investigación y la aplicación de la tecnología de trapo de documentos visuales y promueva el desarrollo adicional de los sistemas de IA multimodales.
El lanzamiento y el código abierto de Vidorag, sin duda, han abierto nuevas direcciones para la tecnología RAG. Con la creciente demanda de procesamiento de documentos visuales, la aparición de Vidorag puede ser el comienzo, y podemos ver sistemas innovadores más similares que surgen en el futuro.
Proyecto: https://github.com/alibaba-nlp/vidorag