L'éditeur de Downcodes a appris que l'équipe technique de Zhipu avait récemment lancé le résultat de la recherche basée sur la technologie GLM-agent AutoGLM. Cet agent intelligent peut simuler le fonctionnement humain des téléphones mobiles et effectuer diverses tâches quotidiennes, comme aimer WeChat, faire des achats sur Taobao, réserver des hôtels sur Ctrip, etc., rapprochant ainsi les applications d'IA de la vie quotidienne des gens. Sa percée technologique réside dans la résolution de nombreux problèmes de planification de tâches et d'exécution d'actions d'agents à grand modèle, et dans l'obtention d'améliorations significatives des performances, surpassant d'autres produits concurrents sur de multiples critères d'évaluation. L'émergence d'AutoGLM marque un progrès significatif dans le domaine de « l'utilisation du téléphone » de l'intelligence artificielle, offrant de nouvelles possibilités pour de futures interactions intelligentes.
L'équipe technologique de Zhipu a récemment lancé un nouveau produit basé sur les résultats de recherche de l'équipe technologique de GLM : AutoGLM, un agent capable de simuler le fonctionnement humain des téléphones mobiles et d'effectuer diverses tâches. Le lancement d'AutoGLM marque les progrès de l'intelligence artificielle dans le domaine de « l'utilisation du téléphone », rendant l'application de l'IA plus proche de la vie quotidienne des gens.

AutoGLM peut effectuer diverses tâches, telles que aimer et commenter des Moments sur WeChat, acheter des produits de commandes historiques sur Taobao, réserver des hôtels sur Ctrip, acheter des billets de train sur 12306, commander des plats à emporter sur Meituan, etc. Ses scénarios d'application ne se limitent pas à cela : en théorie, AutoGLM peut réaliser tout ce que les humains peuvent faire sur des appareils électroniques visuels. La logique de fonctionnement est similaire à celle des humains, sans avoir besoin d'une construction de flux de travail complexe.
Actuellement, les utilisateurs peuvent découvrir AutoGLM-Web en installant le plug-in « Zhipu Qingyan », un assistant de navigateur capable de simuler la visite et le clic des utilisateurs sur des pages Web, et d'effectuer automatiquement une récupération avancée, un résumé et une génération de contenu sur le site Web. En outre, AutoGLM a également ouvert des applications de test internes sur le système Android et a mené une coopération approfondie avec des fabricants de téléphones mobiles tels que Honor.

La technologie d'AutoGLM est basée sur « l'interface intermédiaire de découplage d'agent de base » et le « cadre d'apprentissage par renforcement de cours en ligne auto-évolutif » développés par Zhipu, qui résolvent l'antagonisme des capacités, les tâches de formation et la rareté des données dans la planification des tâches et l'exécution des actions des agents à grande échelle. problèmes tels que des signaux de rétroaction clairsemés et une dérive de la distribution des politiques. AutoGLM peut s'améliorer continuellement et améliorer continuellement et régulièrement ses propres performances, de la même manière que les gens continuent d'acquérir de nouvelles compétences au cours du processus de croissance.
En termes de défis techniques, AutoGLM résout le problème du manque de précision dans « l'exécution des actions » et du manque de flexibilité dans la « planification des tâches ». Grâce à la conception d'une « interface intermédiaire de découplage d'agent de base », il découple les deux étapes de « planification des tâches » et « d'exécution d'actions » via l'interface intermédiaire en langage naturel, permettant ainsi une grande amélioration des capacités de l'agent. Dans le même temps, AutoGLM adopte le « cadre d'apprentissage par renforcement des cours en ligne à évolution automatique » pour apprendre et améliorer les capacités des agents de grande taille dans les environnements Web et téléphoniques dans des environnements en ligne réels.
AutoGLM a obtenu des améliorations significatives des performances en termes d'utilisation du téléphone et du navigateur Web, et a dépassé les performances de GPT-4o et Claude-3.5-Sonnet sur le benchmark d'évaluation AndroidLab. Dans le benchmark d'évaluation WebArena-Lite, AutoGLM a obtenu une amélioration des performances d'environ 200 % par rapport à GPT-4o, réduisant ainsi l'écart entre les taux de réussite entre les humains et les grands agents modèles dans le contrôle de l'interface graphique.
Adresse du projet : https://xiao9905.github.io/AutoGLM
Dans l’ensemble, le lancement d’AutoGLM représente une avancée importante dans la technologie de l’intelligence artificielle. Il améliore non seulement la capacité de l’IA à faire fonctionner les téléphones mobiles, mais offre également davantage de possibilités pour la vie intelligente future. L'éditeur de Downcodes espère qu'AutoGLM aura des applications plus larges et une optimisation plus poussée à l'avenir.