Mise à niveau de l'agent multimodal de l'expérience ouverte GLM-PC pour faire fonctionner l'ordinateur de manière autonome - Article AI

Auteur：Eve Cole Date de mise à jour：2025-01-28 14:32:01

Beijing Zhipu Huazhang Technology Co., Ltd. a officiellement ouvert au public son expérience d'agent intelligent multimodal GLM-PC, marquant une nouvelle étape dans l'interaction homme-machine. GLM-PC est basé sur le grand modèle multimodal CogAgent de Wisdom, qui peut faire fonctionner les ordinateurs de manière autonome et offrir aux utilisateurs une expérience informatique plus intelligente et plus efficace. D'une simple pression sur Entrée, vous pouvez découvrir ses fonctions puissantes, notamment la génération de code, le raisonnement logique, la compréhension de l'interface graphique, etc., ce qui améliore considérablement l'efficacité du travail. Depuis sa sortie le 29 novembre, GLM-PC est en phase de test interne. Cette mise à niveau apporte au public des fonctions plus complètes et une expérience utilisateur plus fluide.

Depuis la sortie de GLM-PC v1.0 le 29 novembre 2024, il est en phase de tests internes. Cette version apporte un mode « réflexion approfondie », de nouvelles fonctions de raisonnement logique et de génération de code, et prend également en charge les systèmes Windows. Les capacités de GLM-PC couvrent de nombreux aspects tels que la génération de code, l'exécution logique et la compréhension de l'interface utilisateur graphique (GUI), démontrant son fort potentiel dans les opérations intelligentes.

En termes de génération de code et d'exécution logique, GLM-PC a la capacité d'analyser de manière exhaustive les objectifs et les ressources, de générer des feuilles de route d'exécution et de décomposer les tâches volumineuses en petites sous-tâches gérables pour parvenir à une planification efficace des tâches. Une fois la planification des tâches terminée, l'agent peut démarrer le module de génération de code pour une exécution cyclique afin de garantir l'achèvement précis de la tâche. Dans le même temps, GLM-PC a également la capacité de penser à long terme, d'ajuster et de réfléchir aux corrections en temps réel, et d'interagir avec les utilisateurs pour optimiser les solutions.

En termes de cognition d'image et d'interface graphique, GLM-PC peut identifier et comprendre avec précision les éléments de l'interface graphique, tels que les boutons et les icônes, et fournir des recommandations intelligentes basées sur les informations de fonctionnement historiques de l'utilisateur. Sa fonction d'analyse sémantique d'images peut analyser en profondeur des images complexes et extraire des informations clés, telles que des tendances et des indicateurs. De plus, GLM-PC peut également fusionner des informations d'image et de texte pour fournir aux utilisateurs des résultats de perception complets et les aider à formuler des plans d'opération précis.

Avec le développement continu de la technologie de l'intelligence artificielle, le lancement de GLM-PC apportera sans aucun doute aux utilisateurs une expérience informatique plus efficace et plus intelligente, marquant un progrès important dans l'interaction homme-machine.

L'expérience ouverte du GLM-PC démontre l'énorme potentiel de la technologie de l'intelligence artificielle pour améliorer l'efficacité de l'interaction homme-machine. Elle devrait être appliquée dans davantage de domaines à l'avenir, offrant aux utilisateurs une expérience de vie plus pratique et plus intelligente. Nous attendons avec impatience l'amélioration continue de GLM-PC à l'avenir et d'apporter plus de surprises aux utilisateurs.