KI-Agenten (intelligente Agenten), die menschliche Geräte übernehmen, waren einst nur Schauplätze in Science-Fiction-Filmen, doch heute sind sie ein heißes Thema an der Börse.
Erst am 23. Oktober brachte Anthropic, ein großes amerikanisches KI-Modellunternehmen, das neue Claude 3.5 Haiku und die aktualisierte Version von Sonnet auf den Markt. Sonnet bringt ein neues KI-Erlebnis „Computer Usage“ mit, das den Computer wie ein Mensch bedienen kann, z. B. den Bildschirm betrachten, den Cursor bewegen, klicken, über eine virtuelle Tastatur tippen usw.
Zwei Tage später folgte Zhipu AI dem Beispiel von Anthropic und veröffentlichte AutoGLM mit dem klaren Ziel, das Mobiltelefon des Benutzers als persönlichen Assistenten zu „steuern“. Es kann selbstständig personalisierte Aufgaben wie die Interaktion mit WeChat, das Aufgeben von Bestellungen zum Mitnehmen und sogar das Ergreifen roter Umschläge ausführen. Es ist hauptsächlich auf gängige Benutzervorgänge in Apps wie WeChat, Taobao, Meituan und Xiaohongshu ausgerichtet.
Diese beiden Produkte stellen den Übergang der KI von Chat-Maschinen hin zur Verwendung von Tools zur Lösung von Problemen dar und ermöglichen es KI-Agenten, schrittweise zu praktischen Produkten in der Realität überzugehen.
Dieser Trend zu KI-Agenten sorgte sofort für einen Schock am Kapitalmarkt.
Als der Markt am Morgen des 28. Oktober eröffnete, erreichten Zhipu-bezogene Konzeptaktien schnell das Tageslimit. Viele davon stiegen stark an Die Aktien erreichten das Tageslimit mit einem Anstieg von 20 % bis 30 %.
Die schnelle Reaktion des Kapitalmarktes spiegelt die hohen Erwartungen an die Kommerzialisierungsaussichten von AI Agent wider. Da sich die entsprechenden Anwendungen jedoch noch in einem frühen Marktstadium befinden, kann diese Welle steigender Preise die Marktstimmung und Spekulation nicht ausschließen.
Ist AI Agent ein langfristiger Trend in der Zukunftstechnologie oder ein kurzfristiger Trend?
Aus technischer Sicht markiert der Aufstieg von KI-Agenten, die sich auf „Computernutzung“ (Computernutzung) und „Telefonnutzung“ (Mobiltelefonnutzung) konzentrieren, die Entwicklung der KI vom Verständnis einer einzigen Sprache hin zur schrittweisen Ausweitung auf die Ausführung komplexer Aufgaben.
Claude Sonnet von Anthropic und AutoGLM von Zhipu verarbeiten nicht nur Gespräche in natürlicher Sprache, sondern steuern auch direkt das Gerät des Benutzers, um bestimmte Vorgänge auszuführen. Dies ist eine neue Stufe der Mensch-Computer-Interaktion. Die Sonnet-Demonstration von Anthropic zeigt, dass es Aufgaben wie das Schreiben von Code und die Datenanalyse bewältigen und sogar verschiedene Lösungen ausprobieren kann, wenn Fehler auftreten. Diese Flexibilität zeigt, dass KI allmählich über eine gewisse „Ausführungskraft“ verfügt.
AutoGLM von Zhipu konzentriert sich auf die Mobiltelefonszene. Durch das Verständnis von UI-Komponenten mithilfe der OCR-Technologie und dem Verständnis der Komponentenfunktionen durch Chain-Thinking-Training kann AutoGLM verschiedene Komponenten auf dem Mobiltelefonbildschirm des Benutzers identifizieren, ihre Funktionen verstehen und dann Vorgänge gemäß den Anweisungen ausführen, z. B. die Automatisierung von WeChat-Interaktionen und E-Commerce-Bestellungen .
Allerdings weisen solche Produkte immer noch Einschränkungen hinsichtlich der Benutzerfreundlichkeit und Kommerzialisierung auf.
Obwohl AutoGLM den Mobiltelefonbetrieb intelligenter macht, wirft es auch Bedenken hinsichtlich Datenschutz- und Sicherheitsproblemen auf: Werden Benutzer aus Bequemlichkeitsgründen auf einen gewissen Schutz der Privatsphäre verzichten? Darüber hinaus erfordert AutoGLM derzeit noch klare Anweisungen und ist in der plattformübergreifenden Anpassbarkeit und Betriebsgenauigkeit begrenzt – um eine wirklich nahtlose Automatisierung zu erreichen, ist eine kontinuierliche Optimierung erforderlich.
Auch im Hinblick auf echte „Intelligenz“ gibt es bei AutoGLM Verbesserungspotenzial. CITIC Securities wies beispielsweise in einem Forschungsbericht darauf hin, dass AutoGLM im offiziellen Demonstrationsvideo mehr als 18 Yuan bezahlt habe, als es eine Bestellung für Luckin Coffee aufgegeben habe, was eine klare Prämie sei. Es scheint, dass es das komplexe „Graben“ noch nicht gemeistert hat Gutscheine“-Gameplay dieser Marken. .
Im Hinblick auf die konkrete Kommerzialisierung gründeten Zhipu und Honor im September ein gemeinsames KI-Großmodell-Technologielabor, um der Branche zu ermöglichen, das Potenzial von KI-Agenten in Terminalanwendungen zu erkennen. Aufgrund der begrenzten Anzahl von Mobiltelefonmarken, die diese Funktion unterstützen, wird eine echte groß angelegte Anwendung jedoch noch einige Zeit in Anspruch nehmen. Laut IDC wird der Marktanteil von KI-Mobiltelefonen und KI-PCs auf dem chinesischen Markt im Jahr 2027 50 % bzw. 80 % überschreiten.
Den Layout-Aktionen der Technologiegiganten nach zu urteilen, ist AI Agent tatsächlich ein wichtiges Schlachtfeld im Bereich großer Modelle.
Öffentlichen Informationen zufolge wird OpenAI voraussichtlich bis Ende des Jahres seine eigene KI-Agent-Software Orion auf den Markt bringen, und Apple wird nächsten Monat auch Apple Intelligence zu iOS 18.1 hinzufügen. Microsoft hat das Bildschirmanalysetool OmniParser als Open-Source-Lösung bereitgestellt, das Funktionen wie die automatische Ticketbuchung ausführen kann. Googles Geimini 2.0 wird voraussichtlich im Dezember auf den Markt kommen, und ein neues ähnliches Projekt „Project Jarvis“ wird entwickelt, um Chrome-Webseitenaufgaben zu automatisieren.
Das bedeutet, dass sich KI-Agenten weiterhin von Laborprodukten zu Massenanwendungen entwickeln und die Giganten, die dahinter stehen, ebenfalls auf dem Vormarsch sind, um den Markt zu erobern.
Die Risikokapitaltrends im Silicon Valley zeigen, dass immer mehr Unternehmen von der KI-Infrastruktur auf die Anwendungsebene verlagern und immer mehr vertikal segmentierte KI-Anwendungen boomen. Die aktuelle KI-Agent-Technologie steht jedoch immer noch vor Herausforderungen, wie z. B. unzureichenden plattformübergreifenden Betriebsfunktionen, starker Abhängigkeit von Anweisungen und personalisierter Erfahrung, die optimiert werden muss. Um vollständig in den Mainstream-Markt einzudringen, muss AI Agent nicht nur seine Funktionen verbessern, sondern auch das Vertrauen der Öffentlichkeit in Bezug auf Datenschutz und Datensicherheit gewinnen.
Kurzfristig ist der Anwendungsbereich von AI Agent noch begrenzt, aber die Effizienz und der Komfort, die er mit sich bringt, sind attraktiv genug. Sobald technische und datenschutzrechtliche Probleme gelöst sind, werden KI-Agenten größere Möglichkeiten haben, intelligente Anwendungen im menschlichen Leben voranzutreiben.