ในสภาพแวดล้อมระดับมืออาชีพตัวแทนผู้ใช้กราฟิก (GUI) เผชิญกับความท้าทายที่สำคัญสามประการ ก่อนอื่นความซับซ้อนของแอพพลิเคชั่นมืออาชีพนั้นสูงกว่าซอฟต์แวร์ทั่วไปมากและต้องมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับเลย์เอาต์ที่ซับซ้อน แอปพลิเคชันเหล่านี้มักจะมีโมดูลการทำงานจำนวนมากและตรรกะเชิงโต้ตอบที่ซับซ้อนซึ่งต้องการให้ตัวแทน GUI มีความฉลาดระดับสูงและการปรับตัว ประการที่สองเครื่องมือระดับมืออาชีพมักจะมีความละเอียดสูงกว่าส่งผลให้ขนาดเป้าหมายเล็กลงซึ่งจะช่วยลดความแม่นยำในการวางตำแหน่ง สภาพแวดล้อมที่มีความละเอียดสูงนี้ทำให้เกิดความต้องการที่สูงขึ้นเกี่ยวกับความถูกต้องของตัวแทน GUI โดยเฉพาะอย่างยิ่งเมื่อต้องรับมือกับองค์ประกอบอินเทอร์เฟซเล็ก ๆ ในที่สุดเวิร์กโฟลว์มีแนวโน้มที่จะพึ่งพาเครื่องมือและเอกสารเพิ่มเติมซึ่งเพิ่มความซับซ้อนของการดำเนินงาน ความท้าทายเหล่านี้เน้นถึงความจำเป็นในการพัฒนาเกณฑ์มาตรฐานและโซลูชั่นขั้นสูงเพื่อปรับปรุงประสิทธิภาพของตัวแทน GUI ในสถานการณ์ที่เข้มงวดเหล่านี้

รูปแบบการวางตำแหน่ง GUI ในปัจจุบันและมาตรฐานไม่สามารถตอบสนองความต้องการของสภาพแวดล้อมระดับมืออาชีพได้ ตัวอย่างเช่นเครื่องมือเช่น screenspot ได้รับการออกแบบเป็นหลักสำหรับงานที่มีความละเอียดต่ำและขาดความหลากหลายที่สามารถจำลองสถานการณ์ในชีวิตจริงได้อย่างแม่นยำ แบบจำลองเช่น Os-Atlas และ Uground ไม่ทำงานได้ดีในแง่ของประสิทธิภาพการคำนวณโดยเฉพาะอย่างยิ่งเมื่อเป้าหมายมีขนาดเล็กหรือไอคอนอินเทอร์เฟซอุดมไปด้วยพวกเขามักจะล้มเหลว นอกจากนี้การขาดการสนับสนุนหลายภาษายัง จำกัด การประยุกต์ใช้โมเดลเหล่านี้ในเวิร์กโฟลว์ทั่วโลก ข้อบกพร่องเหล่านี้เน้นย้ำถึงความจำเป็นสำหรับเกณฑ์มาตรฐานที่ครอบคลุมและเป็นจริงมากขึ้นเพื่อพัฒนาพื้นที่นี้
เพื่อแก้ไขปัญหาเหล่านี้ทีมวิจัยจากมหาวิทยาลัยแห่งชาติสิงคโปร์มหาวิทยาลัย East China Normal และ Hong Kong Baptist University ได้เปิดตัว Screenspot-Pro ซึ่งเป็นเกณฑ์มาตรฐานใหม่ที่เหมาะสำหรับสภาพแวดล้อมระดับมืออาชีพที่มีความละเอียดสูง เกณฑ์มาตรฐานมีชุดข้อมูลงาน 1,581 ชุดจาก 23 อุตสาหกรรมรวมถึงการพัฒนาเครื่องมือสร้างสรรค์ CAD แพลตฟอร์มวิทยาศาสตร์และห้องชุดสำนักงาน มันใช้ภาพเต็มหน้าจอความละเอียดสูงและสร้างความมั่นใจในความแม่นยำและความเป็นจริงผ่านคำอธิบายประกอบของผู้เชี่ยวชาญ Screenspot-Pro ยังให้คำแนะนำหลายภาษารวมถึงภาษาอังกฤษและภาษาจีนเพื่อขยายขอบเขตของการประเมินผล ซึ่งแตกต่างจากก่อนหน้านี้ Screnspot-Pro ได้จัดทำเอกสารเวิร์กโฟลว์จริงเพื่อให้มั่นใจว่าการสร้างคำอธิบายประกอบคุณภาพสูงจึงเป็นเครื่องมือที่มีประสิทธิภาพสำหรับการประเมินและการพัฒนาแบบจำลองการวางตำแหน่ง GUI
ชุดข้อมูลนี้จับภาพฉากจริงและท้าทายขึ้นอยู่กับภาพความละเอียดสูงซึ่งพื้นที่เป้าหมายคิดเป็นเพียง 0.07% ของหน้าจอทั้งหมดโดยเฉลี่ยแสดงความแตกต่างและการย่อขนาดขององค์ประกอบ GUI ข้อมูลถูกรวบรวมโดยผู้ใช้มืออาชีพที่มีประสบการณ์อย่างกว้างขวางในแอปพลิเคชันที่เกี่ยวข้องโดยใช้เครื่องมือพิเศษเพื่อให้แน่ใจว่ามีความแม่นยำของคำอธิบายประกอบ นอกจากนี้ชุดข้อมูลยังสนับสนุนความสามารถในการพูดได้หลายภาษาเพื่ออำนวยความสะดวกในการทดสอบความสามารถสองภาษาและรวมถึงเวิร์กโฟลว์หลายอย่างเพื่อจับภาพความแตกต่างของงานระดับมืออาชีพ คุณสมบัติเหล่านี้ทำให้เป็นประโยชน์อย่างยิ่งสำหรับการประเมินและปรับปรุงความแม่นยำและความยืดหยุ่นของตัวแทน GUI
การวิเคราะห์โมเดลการวางตำแหน่ง GUI ที่มีอยู่โดยใช้ Screenspot-Pro แสดงให้เห็นว่ามันขาดความสามารถอย่างจริงจังในการจัดการกับสภาพแวดล้อมระดับมืออาชีพที่มีความละเอียดสูง อัตราความแม่นยำสูงสุดของ OS-ATLAS-7B เพียง 18.9% อย่างไรก็ตาม Reground ซึ่งใช้วิธีการวนซ้ำช่วยปรับปรุงประสิทธิภาพผ่านการปรับแต่งวิธีการหลายขั้นตอนเพื่อให้ได้ความแม่นยำ 40.2% การระบุส่วนประกอบขนาดเล็กเช่นไอคอนแสดงความยากลำบากอย่างมีนัยสำคัญในขณะที่งานสองภาษาจะเน้นถึงข้อ จำกัด ของโมเดล การค้นพบเหล่านี้เน้นถึงความจำเป็นในการปรับปรุงเทคนิคเพื่อเพิ่มความเข้าใจตามบริบทและความสามารถในการปรับตัวในสภาพแวดล้อม GUI ที่ซับซ้อน
Screenspot-Pro กำหนดเกณฑ์มาตรฐานการเปลี่ยนแปลงสำหรับการประเมินตัวแทน GUI ในสภาพแวดล้อมระดับมืออาชีพที่มีความละเอียดสูง มันจัดการกับความท้าทายที่เฉพาะเจาะจงในเวิร์กโฟลว์ที่ซับซ้อนและให้ชุดข้อมูลที่หลากหลายและแม่นยำเพื่อเป็นแนวทางในนวัตกรรมในการวางตำแหน่ง GUI การบริจาคนี้จะวางรากฐานสำหรับตัวแทนที่ชาญฉลาดและมีประสิทธิภาพมากขึ้นดังนั้นจึงสนับสนุนการดำเนินงานระดับมืออาชีพอย่างราบรื่นและเพิ่มประสิทธิภาพการผลิตและนวัตกรรมอย่างมีนัยสำคัญในอุตสาหกรรมต่างๆ
กระดาษ: https://likaixin2000.github.io/papers/screenspot_pro.pdf
ข้อมูล |: https: //huggingface.co/datasets/likaixin/screenspot-pro
ประเด็นสำคัญ:
** ความซับซ้อนของแอปพลิเคชันมืออาชีพ **: ตัวแทน GUI จำเป็นต้องจัดการอินเทอร์เฟซซอฟต์แวร์ระดับมืออาชีพที่มีความซับซ้อนสูงและความละเอียดสูง
** ชุดข้อมูล screenspot-pro **: มี 1,581 งานครอบคลุมแอปพลิเคชันมืออาชีพ 23 รายการและรองรับการประเมินหลายภาษา
** การปรับปรุงประสิทธิภาพของโมเดล **: ผ่านการปรับแต่งแบบหลายขั้นตอนปรับปรุงความแม่นยำของรูปแบบการวางตำแหน่ง GUI ในสภาพแวดล้อมที่มีความละเอียดสูง