Ces dernières années, les modèles de grandes langues (LLM) ont fait des progrès révolutionnaires dans le domaine de l'intelligence artificielle, en particulier dans la fusion multimodale. Une équipe conjointe de l'Université des sciences et de la technologie de Huazhong, Bytedance et l'Université de Hong Kong ont récemment proposé un cadre de génération multimodale innovant - Liquid, visant à résoudre les limites des modèles multimodaux courants actuels dans le traitement visuel. L'émergence de cette technologie marque le développement ultérieur de l'intelligence artificielle dans le domaine multimodal.
Les maquettes multimodales traditionnelles reposent souvent sur des modules de vision externes complexes, ce qui augmente non seulement la complexité du système, mais limite également son évolutivité et sa flexibilité. L'innovation de Liquid est qu'elle adopte VQGAN en tant que segmentateur de mots d'image et abandonne sa dépendance à l'égard des composants visuels externes. En codant pour l'image en jetons visuels discrets, Liquid permet au modèle de partager la liste des mots directement avec les jetons de texte, atteignant ainsi la compréhension visuelle et la génération visuelles ". Ce design simplifie considérablement la structure du modèle tout en améliorant son évolutivité.
L'étude a révélé que le liquide réduit non seulement considérablement les coûts de formation, mais révèle également les règles d'échelle des capacités multimodales et du LLM. L'équipe de recherche a mené des expériences sur des LLM de différentes tailles (de 0,5b à 32b). Les résultats ont montré qu'à mesure que l'échelle du modèle s'étendait, la qualité des performances et de la génération de ses tâches de génération visuelle suivait un modèle de mise à l'échelle cohérent avec les tâches de langue. Ce qui est encore plus excitant, c'est qu'il existe une relation de facilitation bidirectionnelle entre la compréhension visuelle et les tâches génératives, c'est-à-dire que les deux peuvent atteindre l'optimisation articulaire à travers un espace de représentation partagé. Cette découverte fournit une base théorique importante pour une future conception de modèles multimodaux.
La conception de Liquid incarne pleinement le minimalisme, traitant les images et le texte de manière égale, en adoptant un cadre de traitement unifié. Au cours du processus de construction, l'équipe de recherche a utilisé des données de texte de 30 m et des données de texte d'image 30m pour jeter les bases de la formation multimodale du modèle. Les résultats expérimentaux finaux montrent que le liquide a d'excellentes performances dans la compréhension multimodale, la génération d'images et les tâches de texte brut, et la cohérence sémantique entre les images générées et le texte est nettement plus élevée que les autres modèles autorégressifs. Ce résultat démontre le grand potentiel du liquide dans les applications pratiques.
La proposition de Liquid fournit de nouvelles idées pour la conception architecturale de l'intelligence multimodale générale, indiquant que l'intelligence artificielle peut inaugurer une évolution plus efficace et flexible à l'avenir de la fusion multimodale. Le succès de cette technologie favorise non seulement la recherche dans le domaine multimodal, mais ouvre également de nouvelles possibilités pour l'application de l'intelligence artificielle dans des scénarios plus pratiques.
Lien papier: https://arxiv.org/pdf/2412.04332