Recientemente, Google lanzó un nuevo modelo de lenguaje de visión (VLM) llamado Paligemma2Mix, una innovación que marca un gran avance en la tecnología de inteligencia artificial en el campo del procesamiento de imágenes y texto. Paligemma2Mix no solo puede procesar la información visual y la entrada de texto al mismo tiempo, sino que también generar salidas correspondientes de acuerdo con los requisitos, proporcionando un poderoso soporte técnico para la multitarea.
Paligemma2Mix tiene funciones extremadamente completas, que cubren una variedad de tareas en idioma visual, como descripción de imagen, reconocimiento de caracteres ópticos (OCR), pregunta y respuesta de imagen, detección de objetos y segmentación de imágenes. Ya sea que los desarrolladores o los investigadores puedan usar el modelo directamente a través de los puntos de control previos al entrenamiento, o ajustar de acuerdo con las necesidades específicas, para satisfacer las necesidades de diferentes escenarios de aplicación.

Como una versión optimizada de Paligemma2, Paligemma2Mix se ha ajustado especialmente para las tareas híbridas, con el objetivo de proporcionar a los desarrolladores una experiencia de exploración más conveniente. El modelo proporciona tres escalas de parámetros, que incluyen 3B (3 mil millones de parámetros), 10b (10 mil millones de parámetros) y 28B (28 mil millones de parámetros), y admite dos resoluciones: 224px y 448px, que pueden adaptarse de manera flexible a diferentes recursos informáticos y requisitos de tareas.
Los aspectos básicos funcionales de Paligemma2Mix incluyen la descripción de la imagen, el reconocimiento de caracteres ópticos (OCR), la pregunta de la imagen y la respuesta y la detección de objetos. En términos de descripción de la imagen, el modelo puede generar descripciones detalladas cortas o largas, como identificar una imagen de una vaca en la playa y proporcionar descripciones ricas. En términos de OCR, puede extraer texto de imágenes, identificar logotipos, etiquetas y contenido de documentos, proporcionando una gran comodidad para la extracción de información. Además, los usuarios también pueden cargar fotos y hacer preguntas. El modelo analizará las imágenes y dará respuestas precisas, y también puede identificar objetos específicos en la imagen, como animales, vehículos, etc.
Vale la pena mencionar que los desarrolladores pueden descargar los pesos mixtos de Paligemma2Mix a través del Kaggle y abrazar plataformas faciales para facilitar más experimentos y desarrollo. Si está interesado en este modelo, puede explorar a través de la plataforma de demostración de Hugging Face para obtener información sobre sus potentes características y potencial de aplicación.
Con el lanzamiento de Paligemma2Mix, la investigación de Google en el campo de los modelos en idioma de visión ha dado otro paso importante. Este modelo no solo demuestra el enorme potencial de la tecnología de inteligencia artificial, sino que también proporciona más posibilidades para futuras aplicaciones prácticas. Esperamos que esta tecnología pueda mostrar su valor en más campos y promover el desarrollo adicional de la tecnología de inteligencia artificial.
Informe técnico: https://arxiv.org/abs/2412.035555