O editor do Downcodes soube que a equipe técnica da Zhipu lançou recentemente o resultado da pesquisa baseada na tecnologia GLM-agente AutoGLM. Este agente inteligente pode simular a operação humana de telefones celulares e realizar diversas tarefas diárias, como curtir o WeChat, fazer compras no Taobao, reservar hotéis no Ctrip, etc., aproximando os aplicativos de IA do dia a dia das pessoas. Seu avanço tecnológico reside na resolução de muitos problemas no planejamento de tarefas e execução de ações de agentes de grande porte, e na obtenção de melhorias significativas de desempenho, superando outros produtos concorrentes em múltiplos benchmarks de avaliação. O surgimento do AutoGLM marca um progresso significativo no campo do “Uso do Telefone” da inteligência artificial, proporcionando novas possibilidades para futuras interações inteligentes.
A equipe de tecnologia Zhipu lançou recentemente um novo produto baseado nos resultados da pesquisa da equipe de tecnologia GLM - AutoGLM, que é um agente que pode simular a operação humana de telefones celulares e realizar diversas tarefas. O lançamento do AutoGLM marca o avanço da inteligência artificial na área de “Uso do Telefone”, tornando a aplicação da IA mais próxima do dia a dia das pessoas.

O AutoGLM pode realizar uma variedade de tarefas, como curtir e comentar Moments no WeChat, comprar produtos de pedidos históricos no Taobao, reservar hotéis no Ctrip, comprar passagens de trem no 12306, pedir comida para viagem no Meituan, etc. Seus cenários de aplicação não se limitam a isso. Em teoria, o AutoGLM pode completar qualquer coisa que os humanos possam fazer em dispositivos eletrônicos visuais. A lógica de operação é semelhante à dos humanos, sem a necessidade de construção de fluxo de trabalho complexo.
Atualmente, os usuários podem experimentar o AutoGLM-Web instalando o plug-in "Zhipu Qingyan", que é um assistente de navegador que pode simular usuários visitando e clicando em páginas da web e concluindo automaticamente recuperação avançada, resumo e geração de conteúdo no site. Além disso, a AutoGLM também abriu aplicativos de teste internos no sistema Android e realizou uma cooperação aprofundada com fabricantes de telefones celulares, como a Honor.

A tecnologia do AutoGLM é baseada na "Interface Intermediária de Desacoplamento de Agente Básico" desenvolvida pela Zhipu e na "Estrutura de Aprendizagem de Reforço de Curso Online Autoevolutiva", que resolve o antagonismo de capacidade, tarefas de treinamento e escassez de dados no planejamento de tarefas de agentes de grandes modelos e execução de ações. problemas como sinais de feedback esparsos e desvios na distribuição de políticas. O AutoGLM pode melhorar continuamente e melhorar contínua e continuamente o seu próprio desempenho, semelhante à forma como as pessoas continuam a adquirir novas competências no processo de crescimento.
Em termos de desafios técnicos, o AutoGLM resolve o problema de precisão insuficiente na “execução de ações” e flexibilidade insuficiente no “planejamento de tarefas”. Através do design da "interface intermediária de desacoplamento do agente básico", ele desacopla as duas etapas de "planejamento de tarefas" e "execução de ações" por meio da interface intermediária de linguagem natural, alcançando uma grande melhoria nas capacidades do agente. Ao mesmo tempo, o AutoGLM adota a "estrutura de aprendizado de reforço de curso on-line autoevolutiva" para aprender e melhorar as capacidades de grandes agentes modelo em ambientes Web e telefônicos em ambientes on-line reais.
O AutoGLM obteve melhorias significativas de desempenho tanto no uso do telefone quanto no uso do navegador da Web, e superou o desempenho do GPT-4o e do Claude-3.5-Sonnet no benchmark de avaliação do AndroidLab. No benchmark de avaliação WebArena-Lite, o AutoGLM alcançou uma melhoria de desempenho de aproximadamente 200% em relação ao GPT-4o, diminuindo a lacuna nas taxas de sucesso entre humanos e grandes agentes de modelo no controle de GUI.
Endereço do projeto: https://xiao9905.github.io/AutoGLM
Em suma, o lançamento do AutoGLM representa um avanço importante na tecnologia de inteligência artificial. Não só melhora a capacidade da IA de operar telefones móveis, mas também oferece mais possibilidades para a vida inteligente futura. O editor do Downcodes espera que o AutoGLM tenha aplicações mais amplas e maior otimização no futuro.