L'Université d'ingénierie d'Anhui, l'Université technologique de Nanyang et l'Université de Lehigh ont lancé conjointement un grand modèle multimodal accrocheur : TinyGPT-V. La caractéristique notable de ce modèle est son étonnante rentabilité : ses performances sont comparables à celles des modèles avec des dizaines de milliards de paramètres, mais il ne nécessite que 24 Go de GPU pour terminer la formation, ce qui abaisse considérablement le seuil de ressources. Il s’agit sans aucun doute d’un avantage majeur pour les individus et les institutions qui souhaitent mener des recherches et des applications sur des modèles à grande échelle avec des ressources limitées. L'architecture de TinyGPT-V se compose principalement du grand modèle de langage Phi-2, d'un encodeur visuel et d'une couche de projection linéaire. Ses résultats d'évaluation des performances multi-angles démontrent également sa grande force dans plusieurs tâches de langage visuel.
Des chercheurs de l'Université d'ingénierie d'Anhui, de l'Université technologique de Nanyang et de l'Université de Lehigh ont ouvert un grand modèle multimodal - TinyGPT-V. Ses performances sont comparables à celles de modèles comportant des dizaines de milliards de paramètres, et la formation ne nécessite qu'un GPU 24G. TinyGPT-V est principalement composé de trois blocs principaux : un grand modèle de langage Phi-2, un encodeur visuel et une couche de projection linéaire. Les chercheurs ont mené une évaluation multi-angle des performances de TinyGPT-V, démontrant ses excellentes performances sur plusieurs tâches de langage visuel.
L'open source de TinyGPT-V offre de nouvelles idées et possibilités pour la recherche et l'application de grands modèles multimodaux, et marque également des progrès significatifs dans l'abaissement du seuil de formation de grands modèles. À l’avenir, nous pouvons nous attendre à l’apparition d’autres grands modèles similaires, à haut rendement et à faible coût, favorisant davantage la vulgarisation et le développement de la technologie de l’intelligence artificielle. Ses performances efficaces dans des environnements aux ressources limitées ont apporté de bonnes nouvelles tant au monde universitaire qu’à l’industrie.