Cohere sort Aya Vision, un nouveau modèle d'IA multimodal, fournissant des versions 32b et 8b - articles d'IA

Auteur：Eve Cole Date de mise à jour：2025-05-16 08:00:04

Le domaine de l'intelligence artificielle a inauguré une percée majeure, et le laboratoire de recherche à but non lucratif de Cohere a récemment publié un modèle d'IA multimodal appelé AYA Vision. Cette réalisation innovante a attiré une grande attention dans l'industrie et est saluée par Cohere comme l'une des technologies les plus avancées à l'heure actuelle.

AYA Vision montre une excellente polyvalence, capable de gérer des tâches complexes, notamment la génération de description d'image, les questions liées à la photo, la traduction de texte et la création abstraite dans 23 langues majeures. Pour promouvoir la recherche scientifique mondiale, Cohere fournit cette technologie gratuitement via la plate-forme WhatsApp, permettant aux chercheurs du monde entier d'accéder et d'utiliser facilement cette réalisation de pointe.

Cohere a souligné dans son blog officiel qu'en dépit des progrès importants de la technologie de l'IA, il existe encore des lacunes importantes dans le traitement multilingue et les tâches multimodales. La recherche et le développement d'Aya Vision vise à percer ce goulot d'étranglement technique et à promouvoir le développement ultérieur de l'intelligence artificielle dans les domaines de la langue transversale et de la modalité.

Le modèle est disponible en deux versions: Aya Vision32b et Aya Vision8b. Parmi eux, Aya Vision32b a bien fonctionné dans plusieurs repères de compréhension visuelle, dépassant même des modèles compétitifs plus importants, y compris la vision LLAMA-3.290B de Meta. L'AYA Vision8b a également bien fonctionné, surperformant les modèles dix fois sa taille dans certaines évaluations.

Ces deux modèles ont été publiés sur la plate-forme de développement de l'IA étreignant le visage et sont sous licence dans le Creative Commons4.0, et les utilisateurs sont soumis aux conditions d'utilisation acceptables de Cohere et se limitent à une utilisation non commerciale.

En termes de méthodes de formation, Cohere adopte un ensemble de données anglais innovant "diversifié" pour former des modèles à travers des techniques de traduction et d'annotation synthétique. Cette technologie d'annotation synthétique est générée par l'IA. Bien qu'il ait certaines limites, il a été adopté par de nombreuses institutions de premier plan, y compris OpenAI, montrant son potentiel dans l'amélioration des performances du modèle.

Cohere a déclaré que l'utilisation de la technologie d'annotation synthétique améliore non seulement l'efficacité de la formation, mais réduit également considérablement la consommation de ressources, reflétant les doubles avantages de l'entreprise dans l'innovation technologique et l'optimisation des ressources.

Pour soutenir des recherches plus approfondies, Cohere a également lancé Ayavisionbench, un nouvel outil d'évaluation de référence. L'outil est conçu pour évaluer les performances du modèle dans les tâches visuelles et combinées par le langage telles que la reconnaissance de la différence d'image et les fonctionnalités complexes de capture d'écran à code.

Dans le contexte de la «crise d'évaluation» actuelle dans l'industrie de l'intelligence artificielle, le lancement d'Ayavisionbench fournit un cadre plus complet et difficile pour l'évaluation du modèle, qui devrait promouvoir l'innovation dans les normes d'évaluation de l'industrie.

Blog officiel: https://cohere.com/blog/aya-Vision