Cet article rend compte du rapport d'étape 2024 de l'Institut de recherche Zhiyuan publié par Wang Zhongyuan, directeur de l'Institut de recherche Zhiyuan, lors de la 6e conférence Zhiyuan de Pékin, en se concentrant sur le seau familial grand modèle Zhiyuan. Le rapport présente les derniers résultats de recherche de l'Intelligent Source Research Institute dans les domaines des grands modèles de langage, de multimodalité, d'incarnation et d'informatique biologique, ainsi que la mise à niveau et l'agencement de sa base technologique open source. L'éditeur de Downcodes interprétera le contenu du rapport en détail, en particulier la composition du seau de la famille des grands modèles Zhiyuan et sa technologie de base.

Le 14 juin, la 6e « Conférence de la sagesse de Pékin » organisée par l'Institut de recherche sur la sagesse s'est tenue au parc des expositions de Zhongguancun. Au cours de cette réunion, Wang Zhongyuan, président de l'Institut de recherche Zhiyuan, a fait un rapport d'avancement sur l'Institut de recherche Zhiyuan en 2024 et s'est concentré sur le seau familial grand modèle Zhiyuan.
Dans le rapport d'étape 2024 du Zhiyuan Research Institute, le Zhiyuan Research Institute a partagé ses progrès d'exploration et de recherche de pointe dans les grands modèles de langage, de multimodalité, d'incarnation et d'informatique biologique, ainsi que la mise à niveau et le développement itératifs du grand modèle full-stack ouvert. base technologique source. Aménagement du territoire. Selon l'Institut de recherche Zhiyuan, le développement de grands modèles de langage à ce stade possède déjà les capacités de compréhension et de raisonnement de base de l'intelligence artificielle générale et a formé une voie technique qui utilise de grands modèles de langage comme noyau pour aligner et cartographier d'autres modalités. Le modèle possède des capacités préliminaires de compréhension et de génération multimodales. Mais il ne s’agit pas de la voie technique ultime permettant à l’intelligence artificielle de percevoir et de comprendre le monde physique. Au lieu de cela, elle devrait adopter un paradigme de modèle unifié pour réaliser des entrées et des sorties multimodales, afin que le modèle ait des capacités d’expansion multimodales natives et évolue. dans un modèle mondial.
« À l'avenir, les grands modèles seront intégrés à du matériel intelligent sous la forme d'agents numériques et entreront dans le monde physique depuis le monde numérique sous la forme d'une intelligence incarnée. Dans le même temps, les moyens techniques des grands modèles peuvent fournir "Un nouveau paradigme d'expression des connaissances pour la recherche scientifique et l'accélération de l'exploration et de la recherche par l'humanité des lois du monde microphysique se rapprochent constamment de l'objectif ultime de l'intelligence artificielle générale", a déclaré Wang Zhongyuan.
Le seau familial grand modèle Zhiyuan est un point culminant de ce rapport d'étape 2024 de l'Institut de recherche Zhiyuan. Le journaliste a appris lors de la réunion que la famille des grands modèles Zhiyuan comprend quatre grandes directions de recherche sur les grands modèles : les grandes séries de modèles linguistiques, les grandes séries de modèles multimodaux, les grands modèles d'intelligence incarnée et les grands modèles d'informatique biologique, avec un total de 12 études. En prenant comme exemple la grande série de modèles de langage Zhiyuan, cette direction comprend deux grandes études de modèles, le premier modèle de langage dense à corps unique à faible teneur en carbone au monde Tele-FLM-1T et le modèle vectoriel de langage général série BGE (BAAI General Embedding). .
« En réponse au problème de la consommation élevée d'énergie de calcul dans la formation de grands modèles, l'Institut de recherche Zhiyuan et l'Institut de recherche sur l'intelligence artificielle de China Telecom (TeleAI) ont développé et lancé conjointement le premier billion dense de monomères à faible teneur en carbone au monde, basé sur des technologies clés telles que la croissance des modèles. et prévision des pertes. Modèle de langage Tele-FLM-1T. Ce modèle, avec la version 52B de niveau 10 milliards et la version 102B de niveau 100 milliards, constitue le modèle de la série Tele-FLM », a déclaré le responsable du projet. les affaires pertinentes du modèle de la série Tele-FLM ont déclaré aux journalistes. Il est rapporté que les modèles de la série Tele-FLM ont atteint une croissance à faible émission de carbone. Avec seulement 9 % des ressources de puissance de calcul du programme de formation ordinaire de l'industrie, basé sur 112 serveurs A800, il a fallu 4 mois pour terminer la formation de 3 modèles. totalisant 2,3 Ttokens, et formé avec succès 10 000 milliards de modèles denses Tele-FLM-1T. « L'ensemble du processus de formation du modèle est sans ajustement et sans nouvelle tentative, avec une efficacité de puissance de calcul élevée et une bonne convergence et stabilité du modèle. À l'heure actuelle, le modèle de la série TeleFLM est entièrement open source dans la version 52B, avec des technologies de base (technologie de croissance, hyperparamètre optimal prédiction), détails de la formation (courbe de perte, hyperparamètres optimaux, rapport de données et G radNorm, etc.) sont tous open source. On espère que la technologie open source pourra avoir un impact bénéfique sur la grande communauté de modèles. La version Tele-FLM-1T sera bientôt open source. excellent paramètre initial pour que la communauté puisse former des milliards de modèles denses et éviter la difficulté de convergence dans la formation de milliards de modèles et d'autres problèmes », a déclaré le responsable.
La série BGE de modèles vectoriels sémantiques universels développés indépendamment par l'Institut de recherche Zhiyuan est basée sur la technologie RAG améliorée par la récupération, qui peut réaliser une correspondance sémantique précise entre les données et prendre en charge l'invocation de connaissances externes dans de grands modèles. « Depuis août 2023, la série de modèles BGE a subi trois itérations, atteignant les meilleures performances du secteur dans les trois tâches de récupération du chinois et de l'anglais, de la récupération multilingue et de la récupération raffinée. Ses capacités complètes sont nettement meilleures que celles d'OpenAI, similaire des modèles de Google, Microsoft, Cohere et d’autres institutions sont actuellement disponibles en téléchargement. Il se classe au premier rang des modèles d'IA nationaux et a été intégré par les cadres de développement d'IA internationaux tels que HuggingFace, Langchain et LlamaIndex, ainsi que par les principaux fournisseurs de services cloud tels que Tencent, Huawei, Alibaba, Byte, Microsoft et Amazon, et fournit services commerciaux au monde extérieur, a déclaré aux journalistes le responsable des affaires liées à la série de modèles vectoriels sémantiques BGE.
Dans l'ensemble, l'Institut de recherche Zhiyuan a réalisé des progrès significatifs dans la promotion du développement de la technologie des grands modèles. Son « seau familial de grands modèles » et sa stratégie open source favoriseront davantage l'innovation et le développement dans le domaine de l'IA et méritent une attention continue. L’éditeur de Downcodes attend avec impatience d’autres résultats révolutionnaires à l’avenir.