Der Herausgeber von Downcodes erfuhr, dass das technische Team von Zhipu kürzlich das Forschungsergebnis basierend auf der GLM-Technologie – dem AutoGLM-Agenten – veröffentlicht hat. Dieser intelligente Agent kann die Bedienung von Mobiltelefonen durch Menschen simulieren und verschiedene tägliche Aufgaben ausführen, z. B. WeChat liken, auf Taobao einkaufen, Hotels auf Ctrip buchen usw. und so KI-Anwendungen näher an das tägliche Leben der Menschen heranführen. Sein technologischer Durchbruch liegt darin, viele Probleme bei der Aufgabenplanung und Aktionsausführung von Agenten großer Modelle zu lösen und erhebliche Leistungsverbesserungen zu erzielen, wodurch andere Konkurrenzprodukte bei mehreren Bewertungsbenchmarks übertroffen werden. Das Aufkommen von AutoGLM stellt einen bedeutenden Fortschritt im Bereich der „Telefonnutzung“ künstlicher Intelligenz dar und bietet neue Möglichkeiten für die zukünftige intelligente Interaktion.
Das Zhipu-Technologieteam hat kürzlich ein neues Produkt auf den Markt gebracht, das auf den Forschungsergebnissen des GLM-Technologieteams basiert – AutoGLM, ein Agent, der den menschlichen Betrieb von Mobiltelefonen simulieren und verschiedene Aufgaben ausführen kann. Die Einführung von AutoGLM markiert den Fortschritt der künstlichen Intelligenz im Bereich „Telefonnutzung“ und rückt die Anwendung von KI näher an das tägliche Leben der Menschen heran.

AutoGLM kann eine Vielzahl von Aufgaben ausführen, z. B. Moments auf WeChat liken und kommentieren, historische Bestellprodukte auf Taobao kaufen, Hotels auf Ctrip buchen, Bahntickets auf 12306 kaufen, Essen zum Mitnehmen auf Meituan bestellen usw. Seine Anwendungsszenarien sind nicht darauf beschränkt. Theoretisch kann AutoGLM alles ausführen, was Menschen auf visuellen elektronischen Geräten tun können. Die Betriebslogik ist der von Menschen ähnlich, ohne dass eine komplexe Workflow-Konstruktion erforderlich ist.
Derzeit können Benutzer AutoGLM-Web erleben, indem sie das Plug-in „Zhipu Qingyan“ installieren, einen Browser-Assistenten, der den Besuch und das Klicken von Webseiten durch Benutzer simulieren und automatisch erweiterte Abrufe, Zusammenfassungen und Inhaltserstellung auf der Website durchführen kann. Darüber hinaus hat AutoGLM auch interne Testanwendungen für das Android-System eröffnet und eine intensive Zusammenarbeit mit Mobiltelefonherstellern wie Honor durchgeführt.

Die Technologie von AutoGLM basiert auf Zhipus selbst entwickelter „Basic Agent Decoupling Intermediate Interface“ und „Self-evolving Online Course Reinforcement Learning Framework“, die den Fähigkeitsantagonismus, Trainingsaufgaben und Datenknappheit bei der Aufgabenplanung und Aktionsausführung großer Modellagenten löst. Probleme wie spärliche Rückmeldungssignale und Abweichungen bei der Politikverteilung. AutoGLM kann sich kontinuierlich verbessern und seine eigene Leistung kontinuierlich und stetig verbessern, ähnlich wie Menschen im Wachstumsprozess immer wieder neue Fähigkeiten erwerben.
Hinsichtlich der technischen Herausforderungen löst AutoGLM das Problem unzureichender Genauigkeit bei der „Aktionsausführung“ und unzureichender Flexibilität bei der „Aufgabenplanung“. Durch das Design der „Basis-Agenten-Entkopplungs-Zwischenschnittstelle“ werden die beiden Phasen „Aufgabenplanung“ und „Aktionsausführung“ über die Zwischenschnittstelle in natürlicher Sprache entkoppelt, wodurch die Fähigkeiten des Agenten erheblich verbessert werden. Gleichzeitig übernimmt AutoGLM das „sich selbst entwickelnde Online-Kursverstärkungs-Lernrahmen“, um die Fähigkeiten großer Modellagenten in Web- und Telefonumgebungen in realen Online-Umgebungen zu erlernen und zu verbessern.
AutoGLM erzielte erhebliche Leistungsverbesserungen sowohl bei der Telefonnutzung als auch bei der Webbrowser-Nutzung und übertraf die Leistung von GPT-4o und Claude-3.5-Sonnet im AndroidLab-Bewertungsbenchmark. Im WebArena-Lite-Evaluierungsbenchmark erzielte AutoGLM eine Leistungsverbesserung von etwa 200 % gegenüber GPT-4o und verringerte damit die Lücke in den Erfolgsraten zwischen Menschen und großen Modellagenten bei der GUI-Steuerung.
Projektadresse: https://xiao9905.github.io/AutoGLM
Alles in allem stellt die Einführung von AutoGLM einen wichtigen Durchbruch in der Technologie der künstlichen Intelligenz dar. Sie verbessert nicht nur die Fähigkeit der KI, Mobiltelefone zu bedienen, sondern bietet auch mehr Möglichkeiten für das zukünftige intelligente Leben. Der Herausgeber von Downcodes hofft, dass AutoGLM in Zukunft breitere Anwendungsmöglichkeiten und weitere Optimierungen haben wird.