บรรณาธิการของ Downcodes ได้เรียนรู้ว่าทีมเทคนิคของ Zhipu เพิ่งเปิดตัวผลการวิจัยที่ใช้เทคโนโลยี GLM-AutoGLM agent ตัวแทนอัจฉริยะนี้สามารถจำลองการทำงานของมนุษย์บนโทรศัพท์มือถือ และทำงานต่างๆ ในแต่ละวัน เช่น การกดถูกใจ WeChat ช้อปปิ้งบน Taobao จองโรงแรมบน Ctrip ฯลฯ ทำให้แอปพลิเคชัน AI เข้าใกล้ชีวิตประจำวันของผู้คนมากขึ้น ความก้าวหน้าทางเทคโนโลยีอยู่ที่การแก้ปัญหาต่างๆ ในการวางแผนงานและการดำเนินการของตัวแทนรุ่นใหญ่ และบรรลุการปรับปรุงประสิทธิภาพที่สำคัญ ซึ่งเหนือกว่าผลิตภัณฑ์คู่แข่งอื่นๆ ในการวัดประสิทธิภาพการประเมินที่หลากหลาย การเกิดขึ้นของ AutoGLM ถือเป็นความก้าวหน้าครั้งสำคัญในด้าน "การใช้โทรศัพท์" ของปัญญาประดิษฐ์ โดยมอบความเป็นไปได้ใหม่ๆ สำหรับการโต้ตอบอัจฉริยะในอนาคต
เมื่อเร็วๆ นี้ ทีมเทคโนโลยี Zhipu ได้เปิดตัวผลิตภัณฑ์ใหม่จากผลการวิจัยของทีมเทคโนโลยี GLM - AutoGLM ซึ่งเป็นตัวแทนที่สามารถจำลองการทำงานของมนุษย์บนโทรศัพท์มือถือและทำงานต่างๆ ได้ การเปิดตัว AutoGLM ถือเป็นความก้าวหน้าของปัญญาประดิษฐ์ในด้าน "การใช้โทรศัพท์" ทำให้การประยุกต์ใช้ AI เข้าใกล้ชีวิตประจำวันของผู้คนมากขึ้น

AutoGLM สามารถดำเนินการได้หลากหลาย เช่น การกดไลค์และแสดงความคิดเห็นบน Moments บน WeChat, การซื้อผลิตภัณฑ์ตามคำสั่งซื้อในอดีตบน Taobao, จองโรงแรมบน Ctrip, การซื้อตั๋วรถไฟที่ 12306, การสั่งกลับบ้านบน Meituan เป็นต้น สถานการณ์การใช้งานไม่ได้จำกัดอยู่เพียงเท่านี้ ในทางทฤษฎีแล้ว AutoGLM สามารถทำทุกอย่างที่มนุษย์สามารถทำได้บนอุปกรณ์อิเล็กทรอนิกส์ที่มองเห็นได้ ตรรกะการดำเนินการนั้นคล้ายคลึงกับมนุษย์ โดยไม่จำเป็นต้องสร้างขั้นตอนการทำงานที่ซับซ้อน
ปัจจุบัน ผู้ใช้สามารถสัมผัสประสบการณ์ AutoGLM-Web ได้ด้วยการติดตั้งปลั๊กอิน "Zhipu Qingyan" ซึ่งเป็นผู้ช่วยเบราว์เซอร์ที่สามารถจำลองผู้ใช้ที่เข้าชมและคลิกหน้าเว็บ และดำเนินการเรียกข้อมูล สรุป และการสร้างเนื้อหาขั้นสูงบนเว็บไซต์ให้เสร็จสิ้นโดยอัตโนมัติ นอกจากนี้ AutoGLM ยังได้เปิดแอปพลิเคชันทดสอบภายในบนระบบ Android และได้ดำเนินการความร่วมมือเชิงลึกกับผู้ผลิตโทรศัพท์มือถือเช่น Honor

เทคโนโลยีของ AutoGLM อิงจาก "Basic Agent Decoupling Intermediate Interface" และ "กรอบการเรียนรู้การเสริมกำลังหลักสูตรออนไลน์แบบพัฒนาตนเอง" ที่ Zhipu พัฒนาขึ้นเอง ซึ่งจะช่วยแก้ปัญหาความขัดแย้งด้านความสามารถ งานฝึกอบรม และความขาดแคลนข้อมูลในการวางแผนงานตัวแทนโมเดลขนาดใหญ่ และการดำเนินการ ปัญหาต่างๆ เช่น สัญญาณตอบรับที่กระจัดกระจาย และการกระจายนโยบายที่เบี่ยงเบนไป AutoGLM สามารถปรับปรุงตัวเองได้อย่างต่อเนื่องและปรับปรุงประสิทธิภาพการทำงานของตัวเองอย่างต่อเนื่องและสม่ำเสมอ คล้ายกับการที่ผู้คนยังคงได้รับทักษะใหม่ ๆ ในกระบวนการเติบโต
ในแง่ของความท้าทายทางเทคนิค AutoGLM แก้ปัญหาความแม่นยำไม่เพียงพอใน "การดำเนินการ" และความยืดหยุ่นไม่เพียงพอใน "การวางแผนงาน" ด้วยการออกแบบ "อินเทอร์เฟซกลางการแยกเอเจนต์พื้นฐาน" จะเป็นการแยกสองขั้นตอนของ "การวางแผนงาน" และ "การดำเนินการดำเนินการ" ผ่านอินเทอร์เฟซกลางภาษาธรรมชาติ ทำให้เกิดการปรับปรุงขีดความสามารถของเอเจนต์อย่างมาก ในเวลาเดียวกัน AutoGLM ใช้ "กรอบการเรียนรู้การเสริมหลักสูตรออนไลน์ที่พัฒนาตนเอง" เพื่อเรียนรู้และปรับปรุงความสามารถของตัวแทนโมเดลขนาดใหญ่ในสภาพแวดล้อมเว็บและโทรศัพท์ในสภาพแวดล้อมออนไลน์จริง
AutoGLM ได้รับการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญทั้งในด้านการใช้โทรศัพท์และการใช้เว็บเบราว์เซอร์ และเหนือกว่าประสิทธิภาพของ GPT-4o และ Claude-3.5-Sonnet ในเกณฑ์มาตรฐานการประเมิน AndroidLab ในเกณฑ์มาตรฐานการประเมิน WebArena-Lite นั้น AutoGLM สามารถปรับปรุงประสิทธิภาพได้ประมาณ 200% เมื่อเทียบกับ GPT-4o ซึ่งช่วยลดช่องว่างในอัตราความสำเร็จระหว่างมนุษย์และตัวแทนโมเดลขนาดใหญ่ในการควบคุม GUI
ที่อยู่โครงการ: https://xiao9905.github.io/AutoGLM
โดยรวมแล้ว การเปิดตัว AutoGLM ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีปัญญาประดิษฐ์ ไม่เพียงแต่ปรับปรุงความสามารถของ AI ในการใช้งานโทรศัพท์มือถือเท่านั้น แต่ยังมอบความเป็นไปได้มากขึ้นสำหรับชีวิตอัจฉริยะในอนาคตอีกด้วย บรรณาธิการของ Downcodes หวังว่า AutoGLM จะมีแอปพลิเคชันที่กว้างขึ้นและการเพิ่มประสิทธิภาพเพิ่มเติมในอนาคต