Récemment, Google a publié un nouveau modèle de langue visuelle (VLM) appelée Paligemma2Mix, une innovation qui marque une percée majeure dans la technologie de l'intelligence artificielle dans le domaine du traitement de l'image et du texte. Paligemma2Mix peut non seulement traiter les informations visuelles et la saisie de texte en même temps, mais aussi générer des sorties correspondantes en fonction des exigences, fournissant un support technique puissant pour le multitâche.
Paligemma2Mix a des fonctions extrêmement complètes, couvrant une variété de tâches en langue visuelle telles que la description de l'image, la reconnaissance des caractères optiques (OCR), la question et la réponse de l'image, la détection d'objets et la segmentation de l'image. Que les développeurs ou les chercheurs puissent utiliser le modèle directement via des points de contrôle pré-formation ou affiner en fonction des besoins spécifiques, pour répondre aux besoins de différents scénarios d'application.

En tant que version optimisée de Paligemma2, Paligemma2mix a été spécialement ajustée pour les tâches hybrides, visant à fournir aux développeurs une expérience d'exploration plus pratique. Le modèle fournit trois échelles de paramètres, dont 3b (3 milliards de paramètres), 10b (10 milliards de paramètres) et 28b (28 milliards de paramètres), et prend en charge deux résolutions: 224px et 448px, qui peuvent s'adapter de manière flexible à différentes ressources informatiques et exigences de tâche.
Les points forts fonctionnels principaux de Paligemma2Mix incluent la description de l'image, la reconnaissance optique des caractères (OCR), la question et la réponse de l'image et la détection d'objets. En termes de description de l'image, le modèle est capable de générer des descriptions courtes ou longues détaillées, telles que l'identification d'une image d'une vache debout sur la plage et fournissant des descriptions riches. En termes d'OCR, il peut extraire du texte des images, identifier les logos, les étiquettes et documenter le contenu, offrant une grande commodité pour l'extraction d'informations. De plus, les utilisateurs peuvent également télécharger des photos et poser des questions. Le modèle analysera les images et donnera des réponses précises, et peut également identifier des objets spécifiques dans l'image, tels que les animaux, les véhicules, etc.
Il convient de mentionner que les développeurs peuvent télécharger les poids mixtes de Paligemma2mix à travers les plates-formes faciales Kaggle et étreintes pour faciliter d'autres expériences et développement. Si vous êtes intéressé par ce modèle, vous pouvez explorer en étreignant la plate-forme de démonstration de Face pour mieux comprendre ses fonctionnalités puissantes et son potentiel d'application.
Avec le lancement de Paligemma2Mix, les recherches de Google dans le domaine des modèles en langue visuelle ont fait une autre étape importante. Ce modèle démontre non seulement l'énorme potentiel de la technologie de l'intelligence artificielle, mais offre également plus de possibilités pour les applications pratiques futures. Nous attendons avec impatience cette technologie de pouvoir montrer sa valeur dans plus de domaines et promouvoir le développement ultérieur de la technologie de l'intelligence artificielle.
Rapport technique: https://arxiv.org/abs/2412.03555