ในสาขาการสร้างภาพข้อมูลการสร้างแผนภูมิที่สะท้อนข้อมูลที่ซับซ้อนอย่างถูกต้องเป็นงานที่ท้าทายเสมอ แผนภูมิไม่เพียง แต่จำเป็นต้องจับองค์ประกอบภาพอย่างถูกต้องเช่นเค้าโครงสีและตำแหน่งข้อความ แต่ยังจำเป็นต้องแปลงรายละเอียดเหล่านี้เป็นรหัสเพื่อให้ได้เอฟเฟกต์การออกแบบที่ต้องการ อย่างไรก็ตามวิธีการแบบดั้งเดิมมักจะขึ้นอยู่กับโมเดล Vision-Language Direct (VLMS) เช่น GPT-4V ซึ่งมักจะประสบปัญหาเมื่อแปลงองค์ประกอบภาพที่ซับซ้อนเป็นรหัส Python ที่ถูกต้อง แม้แต่ความผิดพลาดเล็กน้อยก็อาจทำให้แผนภูมิล้มเหลวในการบรรลุเป้าหมายการออกแบบซึ่งมีความสำคัญอย่างยิ่งในด้านต่าง ๆ เช่นการวิเคราะห์ทางการเงินการวิจัยเชิงวิชาการและการรายงานการศึกษา
เพื่อแก้ไขปัญหานี้ทีมวิจัยจาก UCLA (University of California, Los Angeles), UC Merced และ Adobe เสนอกรอบใหม่ที่เรียกว่า Metal ระบบแบ่งงานสร้างแผนภูมิออกเป็นชุดของขั้นตอนส่วนกลางที่จัดการโดยตัวแทนเฉพาะซึ่งจะช่วยปรับปรุงความแม่นยำและความสอดคล้องของการสร้างแผนภูมิ

เฟรมเวิร์กโลหะประกอบด้วยตัวแทนหลักสี่ประการ: ตัวแทนการสร้าง, ตัวแทนการประเมินภาพ, ตัวแทนประเมินรหัสและตัวแทนแก้ไข เครื่องกำเนิดไฟฟ้ามีหน้าที่ในการสร้างรหัส Python ในขั้นต้นตัวแทนการประเมินภาพจะประเมินว่าแผนภูมิที่สร้างขึ้นนั้นสอดคล้องกับไดอะแกรมอ้างอิงอย่างไรเอเจนต์การประเมินรหัสจะตรวจสอบรหัสที่สร้างขึ้นเพื่อจับข้อผิดพลาดทางไวยากรณ์หรือตรรกะใด ๆ การออกแบบแบบแยกส่วนนี้ช่วยให้แต่ละเอเจนต์สามารถมุ่งเน้นไปที่ฟังก์ชั่นเฉพาะของมันเพื่อให้มั่นใจว่าองค์ประกอบภาพและเทคนิคของแผนภูมิได้รับการพิจารณาและปรับอย่างเต็มที่
ในการทดลองโลหะได้ทำการประเมินประสิทธิภาพในชุดข้อมูลชาร์ตมิกและผลการวิจัยพบว่ามันเหนือกว่าวิธีการดั้งเดิมในแง่ของความคมชัดของข้อความความแม่นยำประเภทแผนภูมิความสอดคล้องสีและความแม่นยำของเค้าโครง การเปรียบเทียบกับโมเดลโอเพ่นซอร์ส LLAMA3.2-11B และรุ่นปิดรุ่น GPT-4O แสดงให้เห็นว่ากราฟที่สร้างโดยโลหะนั้นใกล้เคียงกับความแม่นยำของกราฟอ้างอิง นอกจากนี้การศึกษายังเน้นถึงความสำคัญของการแยกกลไกการประเมินภาพและรหัสผ่านการทดลองด้วยการระเหย ประสิทธิภาพมีแนวโน้มที่จะลดลงเมื่อส่วนประกอบทั้งสองนี้รวมกันเป็นตัวแทนการประเมินผลเดียวซึ่งแสดงให้เห็นว่าวิธีการประเมินพิเศษมีความสำคัญสำหรับการสร้างกราฟคุณภาพสูง

โลหะให้วิธีการหลายตัวแทนที่สมดุลโดยการแบ่งงานออกเป็นขั้นตอนเฉพาะซ้ำ วิธีการนี้ไม่เพียง แต่ส่งเสริมการแปลงการออกแบบภาพเป็นรหัส Python ที่แม่นยำ แต่ยังให้กระบวนการอย่างเป็นระบบสำหรับการตรวจจับข้อผิดพลาดและการแก้ไข ด้วยการเพิ่มขึ้นของทรัพยากรการคำนวณประสิทธิภาพของโลหะยังแสดงให้เห็นถึงการปรับปรุงที่ใกล้เคียงกับเชิงเส้นซึ่งให้ศักยภาพในทางปฏิบัติสำหรับสถานการณ์แอปพลิเคชันที่มีข้อกำหนดที่มีความแม่นยำสูง
โครงการ: https://metal-chart-generation.github.io/
ประเด็นสำคัญ:
กรอบโลหะได้รับการเสนอร่วมกันโดย UCLA, UC Merced และ Adobe เพื่อเพิ่มประสิทธิภาพกระบวนการสร้างแผนภูมิ
เฟรมเวิร์กประกอบด้วยตัวแทนเฉพาะสี่รายตามลำดับรับผิดชอบในการสร้างประเมินและแก้ไขแผนภูมิเพื่อให้แน่ใจว่าองค์ประกอบภาพและเทคนิคได้รับการจัดการอย่างเหมาะสม
ผลการทดลองแสดงให้เห็นว่าโลหะดีกว่าวิธีการดั้งเดิมในแง่ของความแม่นยำและความสอดคล้องในการสร้างกราฟแสดงศักยภาพในทางปฏิบัติที่ดี