Agentes de IA (agentes inteligentes) que controlam dispositivos humanos já foram apenas cenários de filmes de ficção científica, mas hoje se tornaram um tema quente no mercado de ações.
Apenas no dia 23 de outubro, a Anthropic, uma grande empresa americana de modelos de IA, lançou o novo Claude 3.5 Haiku e a versão atualizada do Sonnet. Sonnet traz uma nova experiência de IA "Uso do Computador", que pode operar o computador como um humano, como visualizar a tela, mover o cursor, clicar, digitar em um teclado virtual, etc.
Dois dias depois, a Zhipu AI seguiu o exemplo da Anthropic e lançou o AutoGLM, com o objetivo claro de “controlar” o celular do usuário como um assistente pessoal. Ele pode realizar tarefas personalizadas de forma independente, como interagir com o WeChat, fazer pedidos de entrega e até mesmo pegar envelopes vermelhos. Ele é direcionado principalmente a operações comuns de usuários em aplicativos como WeChat, Taobao, Meituan e Xiaohongshu.
Esses dois produtos representam a transição da IA das máquinas de bate-papo para o estágio de uso de ferramentas para resolver problemas, permitindo que os agentes de IA avancem gradualmente em direção a produtos práticos na realidade.
Esta tendência dos agentes de IA causou imediatamente um choque no mercado de capitais.
Quando o mercado abriu na manhã de 28 de outubro, as ações conceituais relacionadas a Zhipu atingiram rapidamente o limite diário. Ações como Parallel Technology, Capital Online, Startup Dark Horse, Doushen Education, Chuanzhi Education e Dianguang Media subiram fortemente. as ações atingiram o limite diário, com alta de 20% a 30%.
A rápida resposta do mercado de capitais reflete as altas expectativas quanto às perspectivas de comercialização do AI Agent. Mas, em essência, uma vez que as aplicações relevantes ainda estão nas fases iniciais do mercado, esta onda de aumento dos preços não pode excluir o sentimento e a especulação do mercado.
O AI Agent é uma tendência de longo prazo na tecnologia futura ou uma tendência de curto prazo?
Do ponto de vista técnico, a ascensão de Agentes de IA que se concentram no "Uso do Computador" (uso do computador) e no "Uso do Telefone" (uso do telefone celular) marca o desenvolvimento da IA desde a compreensão de um único idioma até a expansão gradual para a execução de tarefas complexas.
Claude Sonnet da Anthropic e AutoGLM da Zhipu não apenas processarão conversas em linguagem natural, mas também controlarão diretamente o dispositivo do usuário para realizar operações específicas. Este é um novo estágio de interação humano-computador. A demonstração do Sonnet da Anthropic mostra que ela pode lidar com tarefas como escrita de código e análise de dados, podendo até tentar soluções diferentes quando ocorrem erros. Essa flexibilidade mostra que a IA está começando a ter um certo “poder de execução”.
O AutoGLM da Zhipu concentra-se no cenário de telefonia móvel. Ao compreender os componentes da UI por meio da tecnologia OCR e compreender as funções dos componentes por meio do treinamento de pensamento em cadeia, o AutoGLM pode identificar diferentes componentes na tela do telefone móvel do usuário, compreender suas funções e, em seguida, executar operações de acordo com as instruções, como automatizar interações WeChat e pedidos de comércio eletrônico .
No entanto, tais produtos ainda apresentam limitações na experiência do usuário e na comercialização.
Embora o AutoGLM torne as operações de telefonia móvel mais inteligentes, ele também levanta preocupações sobre questões de privacidade e segurança: os usuários abrirão mão de alguma proteção de privacidade por conveniência? Além disso, o AutoGLM atualmente ainda requer instruções claras e é limitado em termos de adaptabilidade entre plataformas e precisão operacional - para alcançar uma automação verdadeiramente perfeita, é necessária otimização contínua.
Em termos de verdadeira “inteligência”, o AutoGLM também tem espaço para melhorias. Por exemplo, a CITIC Securities apontou em um relatório de pesquisa que no vídeo de demonstração oficial, a AutoGLM pagou mais de 18 yuans ao fazer um pedido de Luckin Coffee, o que era um prêmio claro. Parece que ainda não dominou o complexo "agarrar". cupons" gameplay dessas marcas. .
Em termos de comercialização específica, em setembro, Zhipu e Honor estabeleceram um laboratório conjunto de tecnologia de grande modelo de IA para permitir que a indústria veja o potencial do Agente de IA em aplicações terminais. No entanto, devido ao número limitado de marcas de telefones celulares que suportam esse recurso, a aplicação real em grande escala ainda levará tempo. De acordo com a IDC, a participação de mercado de telefones celulares e PCs com IA no mercado chinês excederá 50% e 80%, respectivamente, em 2027.
A julgar pelas ações de layout dos gigantes da tecnologia, o AI Agent é de fato um importante campo de batalha no campo de grandes modelos.
De acordo com informações públicas, a OpenAI deverá lançar seu próprio software AI Agent Orion até o final do ano, e a Apple também adicionará Apple Intelligence ao iOS 18.1 no próximo mês. A Microsoft abriu o código-fonte da ferramenta de análise de tela OmniParser, que pode completar funções como reserva automática de ingressos. Espera-se que o Geimini 2.0 do Google seja lançado em dezembro, e um novo projeto semelhante, “Projeto Jarvis”, está sendo desenvolvido para automatizar as tarefas das páginas da web do Chrome.
Isto significa que os agentes de IA continuam a passar de produtos de laboratório para aplicações em massa, e os gigantes por trás deles também estão a avançar para ocupar o mercado.
As tendências de capital de risco no Vale do Silício mostram que cada vez mais empresas estão migrando da infraestrutura de IA para o nível de aplicação, e mais aplicações de IA segmentadas verticalmente estão crescendo. No entanto, a tecnologia atual do agente de IA ainda enfrenta desafios, como capacidades insuficientes de operação entre plataformas, forte dependência de instruções e experiência personalizada que precisa ser otimizada. Para entrar completamente no mercado convencional, o AI Agent não só deve melhorar as suas funções, mas também ganhar a confiança do público em termos de privacidade e segurança de dados.
No curto prazo, o escopo de aplicação do AI Agent ainda é limitado, mas a eficiência e comodidade que ele traz são bastante atraentes. Assim que as questões técnicas e de privacidade forem resolvidas, os agentes de IA terão maiores oportunidades de desenvolver aplicações inteligentes na vida humana.