علم محرر Downcodes أن فريق Zhipu الفني قد أطلق مؤخرًا نتيجة البحث استنادًا إلى وكيل تقنية GLM-AutoGLM. يمكن لهذا الوكيل الذكي محاكاة التشغيل البشري للهواتف المحمولة وأداء المهام اليومية المختلفة، مثل الإعجاب بـ WeChat، والتسوق على Taobao، وحجز الفنادق على Ctrip، وما إلى ذلك، مما يجعل تطبيقات الذكاء الاصطناعي أقرب إلى حياة الناس اليومية. ويكمن اختراقها التكنولوجي في حل العديد من المشاكل في تخطيط المهام وتنفيذ إجراءات وكلاء النماذج الكبيرة، وتحقيق تحسينات كبيرة في الأداء، متجاوزة المنتجات المنافسة الأخرى في معايير تقييم متعددة. يمثل ظهور AutoGLM تقدمًا كبيرًا في مجال "استخدام الهاتف" للذكاء الاصطناعي، مما يوفر إمكانيات جديدة للتفاعل الذكي في المستقبل.
أطلق فريق تكنولوجيا Zhipu مؤخرًا منتجًا جديدًا يعتمد على نتائج الأبحاث لفريق تكنولوجيا GLM - AutoGLM، وهو وكيل يمكنه محاكاة التشغيل البشري للهواتف المحمولة وأداء مهام مختلفة. ويمثل إطلاق AutoGLM تقدم الذكاء الاصطناعي في مجال "استخدام الهاتف"، مما يجعل تطبيق الذكاء الاصطناعي أقرب إلى حياة الناس اليومية.

يمكن لـ AutoGLM تنفيذ مجموعة متنوعة من المهام، مثل الإعجاب باللحظات على WeChat والتعليق عليها، وشراء منتجات الطلبات التاريخية على Taobao، وحجز الفنادق على Ctrip، وشراء تذاكر القطار على 12306، وطلب الوجبات الجاهزة على Meituan، وما إلى ذلك. ولا تقتصر سيناريوهات التطبيق على هذا من الناحية النظرية، حيث يمكن لـ AutoGLM إكمال أي شيء يمكن للبشر القيام به على الأجهزة الإلكترونية المرئية، ويشبه منطق التشغيل البشر، دون الحاجة إلى إنشاء سير عمل معقد.
حاليًا، يمكن للمستخدمين تجربة AutoGLM-Web عن طريق تثبيت البرنامج الإضافي "Zhipu Qingyan"، وهو مساعد متصفح يمكنه محاكاة زيارة المستخدمين لصفحات الويب والنقر عليها، وإكمال الاسترجاع المتقدم والملخص وإنشاء المحتوى تلقائيًا على موقع الويب. بالإضافة إلى ذلك، فتحت AutoGLM أيضًا تطبيقات اختبار داخلية على نظام Android، وأجرت تعاونًا متعمقًا مع الشركات المصنعة للهواتف المحمولة مثل Honor.

تعتمد تقنية AutoGLM على "الواجهة الوسيطة لفصل الوكيل الأساسي" التي طورتها شركة Zhipu و"إطار التعلم المعزز للدورة التدريبية عبر الإنترنت ذاتي التطور"، والذي يحل تناقض القدرات ومهام التدريب وندرة البيانات في تخطيط مهام الوكيل النموذجي الكبير وتنفيذ الإجراءات. مشاكل مثل إشارات ردود الفعل المتفرقة وانحراف توزيع السياسات. يمكن لـ AutoGLM تحسين نفسها بشكل مستمر وتحسين أدائها بشكل مستمر وثابت، على غرار الطريقة التي يستمر بها الأشخاص في اكتساب مهارات جديدة في عملية النمو.
فيما يتعلق بالتحديات التقنية، يحل AutoGLM مشكلة عدم كفاية الدقة في "تنفيذ الإجراء" وعدم كفاية المرونة في "تخطيط المهام". من خلال تصميم "الواجهة الوسيطة لفصل الوكيل الأساسي"، فإنه يفصل مرحلتي "تخطيط المهام" و"تنفيذ الإجراء" من خلال الواجهة الوسيطة للغة الطبيعية، مما يحقق تحسنًا كبيرًا في قدرات الوكيل. في الوقت نفسه، تتبنى AutoGLM "إطار التعلم المعزز للدورة التدريبية عبر الإنترنت ذاتي التطور" لتعلم وتحسين قدرات وكلاء النماذج الكبيرة في بيئات الويب والهاتف في بيئات حقيقية عبر الإنترنت.
حقق AutoGLM تحسينات كبيرة في الأداء في كل من استخدام الهاتف واستخدام متصفح الويب، وتجاوز أداء GPT-4o وClaude-3.5-Sonnet في معيار تقييم AndroidLab. في معيار التقييم WebArena-Lite، حققت AutoGLM تحسنًا في الأداء بنسبة 200% تقريبًا مقارنة بـ GPT-4o، مما أدى إلى تضييق الفجوة في معدلات النجاح بين البشر ووكلاء النماذج الكبيرة في التحكم في واجهة المستخدم الرسومية.
عنوان المشروع: https://xiao9905.github.io/AutoGLM
وبشكل عام، يمثل إطلاق AutoGLM طفرة مهمة في تكنولوجيا الذكاء الاصطناعي، فهو لا يحسن قدرة الذكاء الاصطناعي على تشغيل الهواتف المحمولة فحسب، بل يوفر أيضًا المزيد من الاحتمالات للحياة الذكية في المستقبل. يأمل محرر Downcodes أن يكون لدى AutoGLM تطبيقات أوسع ومزيد من التحسين في المستقبل.