Le laboratoire de Shanghai AI a récemment publié un modèle multimodal de grand langage appelé Interlm-xcomposer-2.5 (IXC-2.5 pour faire court), et ce projet open source a attiré une attention généralisée dans le domaine de l'intelligence artificielle. Ce modèle a non seulement réalisé de nombreuses percées dans la technologie, mais a également montré un fort potentiel dans les applications pratiques, en particulier dans la compréhension de l'image à ultra-haute résolution, la compréhension vidéo à grain fin et le dialogue d'images multi-rondes.

La sortie de IXC-2.5 a comblé l'écart dans le domaine de la LLM multimodale en Chine, en particulier dans la production de pages Web et la génération d'articles graphiques et de texte mixtes. Qu'il s'agisse de la conception Web ou de la génération de contenu graphique, IXC-2.5 peut fournir des solutions efficaces et précises, améliorant considérablement l'efficacité créative.
Les caractéristiques principales du modèle IXC-2.5 incluent:
Capacité de traitement de contexte long: le modèle prend en charge nativement les entrées de marqueur 24K et peut être étendu à 96k, ce qui signifie qu'il peut gérer les entrées de texte et d'image ultra-longues, offrant aux utilisateurs un espace plus créatif. Qu'il s'agisse de documents complexes ou de grandes quantités de données d'image, IXC-2.5 peut le gérer facilement.
Diverses capacités visuelles: IXC-2.5 prend en charge non seulement la compréhension de l'image à ultra-haute résolution, mais permet également une compréhension vidéo à grain fin et un dialogue multi-graphiques multi-rondes. Cette capacité de traitement multimodale est extrêmement rare dans les modèles précédents, en particulier en termes de compréhension vidéo.
Capacité de génération forte: IXC-2.5 peut générer des pages Web et des articles graphiques de haute qualité, portant la combinaison de texte et d'images à un nouveau niveau. Qu'il s'agisse de conception Web ou de génération d'articles de texte mixte, IXC-2.5 peut fournir une sortie de haute qualité pour répondre aux besoins de différents scénarios.
Architecture de modèle avancée: IXC-2.5 utilise un codeur de vision léger, des modèles de grandes langues et certaines technologies d'alignement LORA. Surtout lorsqu'il s'agit de données multimodales complexes, IXC-2.5 montre une excellente efficacité.
Sur les 28 repères, IXC-2.5 a surpassé le modèle open source existant dans 16 tests, et les performances dans 16 autres tests étaient proches ou dépassant le GPT-4V et Gemini Pro. Ce résultat de test prouve pleinement la forte force de IXC-2.5, en particulier dans les tâches telles que la compréhension vidéo, la compréhension structurée de l'image haute résolution, les cycles multiples de dialogues et les réponses visuelles générales. Compétitivité.
L'équipe R&D de IXC-2.5 est conjointement composée du Shanghai Artificial Intelligence Laboratory, de l'Université chinoise de Hong Kong, du groupe de technologies sensibles et de l'Université Tsinghua. La conception originale de ce modèle est de prendre en charge l'entrée et la sortie à long contexte pour faire face aux tâches de compréhension et de création de l'image texte de plus en plus complexes. Pendant la phase de pré-formation, IXC-2.5 étend la fenêtre de contexte à 96k par la position codant pour l'extrapolation, qui démontre des capacités exceptionnelles dans l'interaction humaine-ordinateur et la création de contenu.
En termes de traitement d'image, IXC-2.5 adopte une stratégie de segmentation d'image dynamique unifiée, qui peut s'adapter aux images de toute résolution et rapport d'aspect. En termes de traitement vidéo, il peut épisser les cadres dans la vidéo le long des bords courts pour former des images haute résolution tout en conservant l'index des cadres pour fournir des relations de temps. Cette approche fait que IXC-2.5 fonctionne bien dans les tâches de compréhension vidéo.
De plus, IXC-2.5 élargit également son application dans la génération de page Web, ce qui lui permet de créer automatiquement des pages Web en fonction des captures d'écran visuelles, des instructions de forme libre ou des documents reprendre. En termes de création d'articles d'image texte, IXC-2.5 propose un processus évolutif en combinant plusieurs technologies pour générer des articles d'image de texte de haute qualité et stables.
L'open source d'IXC-2.5 n'est pas seulement un saut technologique, mais aussi une grande contribution à l'ensemble du domaine de l'intelligence artificielle. Il nous permet de voir les possibilités infinies de LLM multimodal et ouvre également de nouveaux chemins pour les futures applications d'IA. Qu'il s'agisse de la création de contenu, de la conception Web ou du traitement des données multimodales, IXC-2.5 deviendra un outil important dans les futures applications d'intelligence artificielle.
Adresse du projet: https://top.aibase.com/tool/internlm-xcomposer-2-5
Adresse papier: https://arxiv.org/pdf/2407.03320