Publication de l'API du modèle de compréhension d'image multimodale de Dark Side of the Moon Kimi - Article sur l'IA

Auteur：Eve Cole Date de mise à jour：2025-01-28 16:32:01

Beijing Dark Side of the Moon Technology Co., Ltd. a publié un nouveau modèle de compréhension d'image multimodal moonshot-v1-vision-preview. Ce modèle est une extension de la série moonshot-v1 et améliore considérablement la capacité de Kimi à comprendre les informations d'image. . Le modèle Vision possède de puissantes capacités de reconnaissance d'images et peut distinguer avec précision des différences subtiles, telles que la distinction facile d'images très similaires de muffins aux bleuets et de chihuahuas. En outre, il fonctionne également bien en reconnaissance de texte OCR et peut reconnaître avec précision divers documents, y compris l'écriture manuscrite gribouillée, tels que les reçus et les bons de livraison express. Ce modèle prend en charge une variété de fonctionnalités, telles que le dialogue à plusieurs tours, la sortie en streaming, etc., offrant aux utilisateurs une expérience plus pratique et efficace.

Le 15 janvier 2025, Beijing Dark Side of the Moon Technology Co., Ltd. a annoncé la sortie officielle du nouveau modèle de compréhension d'image multimodale moonshot-v1-vision-preview. Ce modèle améliore les capacités multimodales du moonshot. -série de modèles v1 et aide Kimi à mieux comprendre le monde.

Le modèle Vision possède de puissantes capacités de reconnaissance d'images et peut identifier avec précision les détails et les nuances complexes des images, qu'il s'agisse d'aliments ou d'animaux, et peut distinguer des objets similaires mais pas identiques. Par exemple, face à 16 images similaires de muffins aux myrtilles et de chihuahuas difficiles à distinguer pour l'œil humain, le modèle Vision peut les distinguer et les identifier avec précision.

Le modèle Vision possède également les capacités avancées de reconnaissance d'images les plus avancées du pays et fonctionne bien dans les scénarios de reconnaissance de texte et de compréhension d'images OCR. Il est plus précis que les logiciels ordinaires de numérisation de documents et de reconnaissance OCR, et peut reconnaître le contenu manuscrit griffonné tel que les reçus et les bons de livraison express. .

微信截图_20250115135433.png

Le modèle de vision Vision prend en charge plusieurs cycles de dialogue, la sortie en streaming, l'appel d'outils, le mode JSON, le mode partiel et d'autres fonctionnalités, mais il ne prend actuellement pas en charge la recherche en ligne. Il ne prend pas en charge la création de cache contextuel avec du contenu d'image, mais il prend en charge. l'utilisation d'appels de cache créés avec succès. Le modèle Vision ne prend pas en charge les images au format URL et ne prend actuellement en charge que le contenu d'image codé en base64.

Modèle de facturation

Modèle de prix unitaire de facturation jetons moonshot-v1-8k-vision-preview1M ¥ 12,00 jetons moonshot-v1-32k-vision-preview1M ¥ 24,00 jetons moonshot-v1-128k-vision-preview1M ¥ 60,00

La sortie du modèle moonshot-v1-vision-preview marque une nouvelle avancée réalisée par Beijing Dark Side of the Moon Technology Co., Ltd. dans le domaine de l'intelligence artificielle multimodale et ouvre une nouvelle direction pour le développement de la compréhension des images. technologie. Ses performances puissantes et ses fonctions riches lui confèrent de larges perspectives d'application dans de nombreux scénarios d'application, et il vaut la peine d'attendre avec impatience son développement et ses applications futurs.