Редактор Downcodes узнал, что техническая команда Zhipu недавно запустила результат исследования на основе технологии GLM — агента AutoGLM. Этот интеллектуальный агент может имитировать работу человека с мобильными телефонами и выполнять различные повседневные задачи, такие как лайки WeChat, покупки на Taobao, бронирование отелей на Ctrip и т. д., приближая приложения искусственного интеллекта к повседневной жизни людей. Его технологический прорыв заключается в решении многих проблем планирования задач и выполнения действий агентов больших моделей, а также в достижении значительного улучшения производительности, превосходя другие конкурирующие продукты по множеству тестов оценки. Появление AutoGLM знаменует собой значительный прогресс в области «использования телефона» искусственного интеллекта, предоставляя новые возможности для будущего интеллектуального взаимодействия.
Технологическая группа Zhipu недавно запустила новый продукт, основанный на результатах исследований технологической группы GLM, — AutoGLM, который представляет собой агент, который может имитировать работу мобильных телефонов человеком и выполнять различные задачи. Запуск AutoGLM знаменует прогресс искусственного интеллекта в области «использования телефонов», делая применение ИИ ближе к повседневной жизни людей.

AutoGLM может выполнять различные задачи, например ставить лайки и комментировать Moments в WeChat, покупать продукты по историческим заказам на Taobao, бронировать отели на Ctrip, покупать билеты на поезд на 12306, заказывать еду на вынос на Meituan и т. д. Сценарии его применения этим не ограничиваются. Теоретически AutoGLM может выполнять все, что люди могут делать на визуальных электронных устройствах. Логика работы аналогична человеческой, без необходимости построения сложного рабочего процесса.
В настоящее время пользователи могут использовать AutoGLM-Web, установив плагин «Zhipu Qingyan», который представляет собой помощник браузера, который может имитировать посещение пользователями веб-страниц и их нажатие на них, а также автоматически выполнять расширенный поиск, сводку и создание контента на веб-сайте. Кроме того, AutoGLM также открыла приложения для внутреннего тестирования в системе Android и осуществляет углубленное сотрудничество с производителями мобильных телефонов, такими как Honor.

Технология AutoGLM основана на разработанном Zhipu «Базовом промежуточном интерфейсе развязки агентов» и «Саморазвивающейся платформе обучения с подкреплением онлайн-курсов», которая решает проблемы антагонизма возможностей, задач обучения и нехватки данных при планировании задач и выполнении действий агента большой модели. такие проблемы, как редкие сигналы обратной связи и дрейф распределения политики. AutoGLM может постоянно совершенствоваться, а также постоянно и неуклонно улучшать собственную производительность, подобно тому, как люди продолжают приобретать новые навыки в процессе роста.
С точки зрения технических задач AutoGLM решает проблему недостаточной точности «выполнения действий» и недостаточной гибкости «планирования задач». Благодаря разработке «базового промежуточного интерфейса, отделяющего агента», он разделяет два этапа «планирования задач» и «выполнения действий» через промежуточный интерфейс на естественном языке, достигая значительного улучшения возможностей агента. В то же время AutoGLM использует «саморазвивающуюся структуру обучения с подкреплением онлайн-курсов» для изучения и улучшения возможностей крупных модельных агентов в веб-средах и телефонных средах в реальных онлайн-средах.
AutoGLM добился значительного улучшения производительности как при использовании телефона, так и при использовании веб-браузера, а также превзошел производительность GPT-4o и Claude-3.5-Sonnet в оценочном тесте AndroidLab. В оценочном тесте WebArena-Lite AutoGLM достиг примерно 200-процентного улучшения производительности по сравнению с GPT-4o, сократив разрыв в показателях успеха между людьми и крупными модельными агентами в управлении через графический интерфейс.
Адрес проекта: https://xiao9905.github.io/AutoGLM
В целом, запуск AutoGLM представляет собой важный прорыв в технологии искусственного интеллекта. Он не только улучшает возможности ИИ по управлению мобильными телефонами, но и предоставляет больше возможностей для будущей разумной жизни. Редактор Downcodes надеется, что AutoGLM получит более широкое применение и дальнейшую оптимизацию в будущем.