La startup de Seattle Moondream a publié le modèle de langage visuel compact Moondream2, qui n'a que 1,6 milliard de paramètres, mais a bien fonctionné dans divers tests de référence, encore mieux que certains modèles avec des paramètres plus importants. En tant que modèle open source, Moondream2 peut s'exécuter localement sur des dispositifs à basse performance tels que les smartphones, et possède de puissantes capacités de traitement d'image et de texte, y compris les questions et réponses, l'OCR, le comptage d'objets et la classification. Ses scores de plus de 60% sur DOCVQA, TextVQA et GQA, démontrant sa puissante capacité lorsqu'ils sont exécutés localement. Moondream a reçu 4,5 millions de dollars en sémeurs et continue de mettre à jour le modèle pour améliorer ses performances.
Récemment, Moondream, une startup de Seattle, a lancé un modèle de langage visuel compact appelé Moondream2. Malgré sa petite taille, le modèle a bien fonctionné dans divers repères et a attiré beaucoup d'attention. En tant que modèle open source, Moondream2 devrait implémenter la reconnaissance d'image locale sur les smartphones.

Moondream2 a été officiellement publié en mars. Depuis sa sortie, l'équipe de Moondream a continuellement mis à jour le modèle pour améliorer continuellement ses performances de référence. L'édition de juillet a montré des améliorations significatives de la compréhension de l'OCR et de la documentation, en particulier dans l'analyse des données économiques historiques. Le modèle a obtenu plus de 60% sur DOCVQA, TextVQA et GQA, montrant sa puissance puissante lorsqu'il est exécuté localement.
Une caractéristique distinctive de Moondream2 est sa taille compacte: seulement 1,6 milliard de paramètres, ce qui le fait fonctionner non seulement sur les serveurs cloud, mais aussi sur les ordinateurs locaux et même certains périphériques à faible performance tels que les smartphones ou les ordinateurs à planche unique.
Malgré sa petite taille, ses performances sont comparables à certains modèles compétitifs avec des milliards de paramètres, et surpasse même ces modèles plus grands dans certains repères.
En comparaison des modèles de langage visuel de dispositif mobile, les chercheurs ont souligné que bien que Moondream2 n'ait que 170 millions de paramètres, ses performances sont comparables à celles du modèle de 700 millions de paramètres, et il ne fonctionne que légèrement inférieur à l'ensemble de données SQA. Cela montre que malgré l'excellente performance du petit modèle, il y a des défis à comprendre un contexte spécifique.

Vikhyat Korrapati, le développeur du modèle, a déclaré que Moondream2 a été construit sur d'autres modèles tels que Siglip, les ensembles de données de formation PHI-1.5 et LLAVA de Microsoft. Le modèle open source est désormais disponible gratuitement sur GitHub et dispose d'une version de démonstration sur le visage étreint. Sur la plate-forme de codage, Moondream2 a également attiré une large attention de la communauté des développeurs et a reçu plus de 5 000 étoiles.
Le succès a attiré l'attention des investisseurs: Moondream a réussi à recueillir 4,5 millions de dollars dans un tour de semences dirigé par Felicis Ventures, le fonds M12Github de Microsoft et Ascend. Le PDG de l'entreprise, Jay Allen, a travaillé pour Amazon Web Services (AWS) pendant de nombreuses années et dirige la startup croissante.
Le lancement de Moondream2 marque la naissance d'une gamme de modèles open source optimisés professionnellement qui nécessitent moins de ressources lorsqu'ils fournissent des performances similaires à des modèles plus anciens et plus anciens. Bien qu'il existe quelques petits modèles locaux sur le marché, tels que l'assistant intelligent d'Apple et les Gemini Nano de Google, ces deux fabricants sous-traitent toujours des tâches plus complexes au cloud pour résoudre.
Huggingface: https: //huggingface.co/vikhyatk/moondream2
github: https: //github.com/vikhyat/moondream
Points clés:
Moondream a lancé Moondream2, un modèle de langage visuel avec seulement 160 millions de paramètres, qui peuvent fonctionner sur de petits appareils tels que les smartphones.
Le modèle a des capacités de traitement de texte et d'image solides, peut répondre aux questions, effectuer l'OCR, compter les objets et classer les repères et effectuer d'excellents analyses d'analyse d'analyse.
Moondream a réussi à lever 4,5 millions de dollars de financement, et le PDG a travaillé chez Amazon, et l'équipe a continué à mettre à jour et à améliorer les performances du modèle.
L'émergence de Moondream2 a apporté de nouvelles possibilités aux applications d'IA mobiles, et ses fonctionnalités open source ont également favorisé la participation active et l'innovation de la communauté des développeurs. À l'avenir, avec le développement continu de la technologie, des modèles d'IA petits et efficaces comme Moondream2 joueront un rôle important dans plus de domaines.