El editor de Downcodes se enteró de que el equipo técnico de Zhipu lanzó recientemente el resultado de la investigación basada en la tecnología GLM: el agente AutoGLM. Este agente inteligente puede simular el funcionamiento humano de teléfonos móviles y realizar diversas tareas diarias, como dar me gusta en WeChat, comprar en Taobao, reservar hoteles en Ctrip, etc., acercando las aplicaciones de inteligencia artificial a la vida diaria de las personas. Su avance tecnológico radica en resolver muchos problemas en la planificación de tareas y ejecución de acciones de agentes de modelos grandes, y lograr mejoras significativas en el rendimiento, superando a otros productos de la competencia en múltiples puntos de referencia de evaluación. La aparición de AutoGLM marca un progreso significativo en el campo del "uso telefónico" de la inteligencia artificial, proporcionando nuevas posibilidades para la interacción inteligente en el futuro.
El equipo de tecnología de Zhipu lanzó recientemente un nuevo producto basado en los resultados de la investigación del equipo de tecnología de GLM: AutoGLM, que es un agente que puede simular el funcionamiento humano de teléfonos móviles y realizar diversas tareas. El lanzamiento de AutoGLM marca el avance de la inteligencia artificial en el campo del “Uso del Teléfono”, acercando la aplicación de la IA a la vida diaria de las personas.

AutoGLM puede realizar una variedad de tareas, como dar me gusta y comentar Momentos en WeChat, comprar productos de pedidos históricos en Taobao, reservar hoteles en Ctrip, comprar boletos de tren en 12306, pedir comida para llevar en Meituan, etc. Sus escenarios de aplicación no se limitan a esto. En teoría, AutoGLM puede completar cualquier cosa que los humanos puedan hacer en dispositivos electrónicos visuales. La lógica de operación es similar a la de los humanos, sin la necesidad de una construcción de flujo de trabajo compleja.
Actualmente, los usuarios pueden experimentar AutoGLM-Web instalando el complemento "Zhipu Qingyan", que es un asistente de navegador que puede simular que los usuarios visitan y hacen clic en páginas web, y completa automáticamente la recuperación avanzada, el resumen y la generación de contenido en el sitio web. Además, AutoGLM también abrió aplicaciones de prueba internas en el sistema Android y llevó a cabo una cooperación profunda con fabricantes de teléfonos móviles como Honor.

La tecnología de AutoGLM se basa en la "Interfaz intermedia de desacoplamiento de agentes básicos" de desarrollo propio de Zhipu y el "Marco de aprendizaje de refuerzo de cursos en línea autoevolutivo", que resuelve el antagonismo de capacidades, las tareas de capacitación y la escasez de datos en la planificación de tareas y la ejecución de acciones de agentes de modelos grandes. problemas tales como escasas señales de retroalimentación y deriva en la distribución de políticas. AutoGLM puede mejorarse continuamente y mejorar continua y constantemente su propio desempeño, de manera similar a cómo las personas continúan adquiriendo nuevas habilidades en el proceso de crecimiento.
En términos de desafíos técnicos, AutoGLM resuelve el problema de la precisión insuficiente en la "ejecución de acciones" y la flexibilidad insuficiente en la "planificación de tareas". Mediante el diseño de la "interfaz intermedia de desacoplamiento del agente básico", se desacoplan las dos etapas de "planificación de tareas" y "ejecución de acciones" a través de la interfaz intermedia de lenguaje natural, logrando una gran mejora en las capacidades del agente. Al mismo tiempo, AutoGLM adopta el "marco de aprendizaje de refuerzo de cursos en línea autoevolutivo" para aprender y mejorar las capacidades de agentes modelo grandes en entornos web y telefónicos en entornos en línea reales.
AutoGLM logró importantes mejoras de rendimiento tanto en el uso del teléfono como en el uso del navegador web, y superó el rendimiento de GPT-4o y Claude-3.5-Sonnet en el punto de referencia de evaluación de AndroidLab. En el punto de referencia de evaluación WebArena-Lite, AutoGLM logró aproximadamente una mejora de rendimiento del 200% con respecto a GPT-4o, reduciendo la brecha en las tasas de éxito entre humanos y agentes modelo grandes en el control de GUI.
Dirección del proyecto: https://xiao9905.github.io/AutoGLM
En definitiva, el lanzamiento de AutoGLM representa un avance importante en la tecnología de inteligencia artificial. No sólo mejora la capacidad de la IA para operar teléfonos móviles, sino que también ofrece más posibilidades para la vida inteligente en el futuro. El editor de Downcodes espera que AutoGLM tenga aplicaciones más amplias y una mayor optimización en el futuro.