Di bidang visualisasi data, menghasilkan grafik yang secara akurat mencerminkan data kompleks selalu menjadi tugas yang menantang. Bagan tidak hanya perlu secara akurat menangkap elemen visual seperti tata letak, warna dan posisi teks, tetapi juga perlu mengubah detail ini menjadi kode untuk mencapai efek desain yang diinginkan. Namun, metode tradisional sering mengandalkan model penglihatan-penglihatan langsung (VLM), seperti GPT-4V, yang sering mengalami kesulitan ketika mengubah elemen visual yang kompleks menjadi kode python yang benar sintaksis. Bahkan kesalahan kecil dapat menyebabkan grafik gagal memenuhi tujuan desain, yang sangat penting dalam bidang -bidang seperti analisis keuangan, penelitian akademik dan pelaporan pendidikan.
Untuk mengatasi masalah ini, tim peneliti dari UCLA (University of California, Los Angeles), UC Merced dan Adobe mengusulkan kerangka kerja baru yang disebut Metal. Sistem memecah tugas pembuatan grafik menjadi serangkaian langkah terpusat yang dikelola oleh agen khusus, sehingga meningkatkan keakuratan dan konsistensi menghasilkan grafik.

Kerangka kerja logam mencakup empat agen utama: agen pembuatan, agen evaluasi visual, agen evaluasi kode, dan agen revisi. Generator bertanggung jawab untuk awalnya menghasilkan kode python, agen evaluasi visual mengevaluasi seberapa konsisten grafik yang dihasilkan dengan diagram referensi, agen evaluasi kode meninjau kode yang dihasilkan untuk menangkap setiap kesalahan sintaks atau logis, dan akhirnya merevisi agen untuk menyesuaikan kode berdasarkan umpan balik evaluasi. Desain modular ini memungkinkan setiap agen untuk fokus pada fungsi spesifiknya, memastikan bahwa elemen visual dan teknis dari bagan sepenuhnya dipertimbangkan dan disesuaikan.
Dalam percobaan, logam melakukan evaluasi kinerja pada dataset chartMimic, dan hasilnya menunjukkan bahwa itu lebih unggul daripada metode tradisional dalam hal kejelasan teks, akurasi jenis bagan, konsistensi warna, dan akurasi tata letak. Perbandingan dengan model open source llama3.2-11b dan model sumber tertutup GPT-4O menunjukkan bahwa grafik yang dihasilkan oleh logam lebih dekat dengan keakuratan grafik referensi. Selain itu, penelitian ini juga menekankan pentingnya pemisahan mekanisme evaluasi visual dan kode melalui percobaan ablasi. Kinerja cenderung menurun ketika kedua komponen ini digabungkan menjadi satu agen evaluasi, yang menunjukkan bahwa metode evaluasi khusus sangat penting untuk pembuatan grafik berkualitas tinggi.

Metal memberikan pendekatan multi-agen yang seimbang dengan memecah tugas menjadi langkah-langkah khusus dan berulang. Pendekatan ini tidak hanya mempromosikan konversi desain visual yang tepat menjadi kode Python, tetapi juga menyediakan proses sistematis untuk deteksi dan koreksi kesalahan. Dengan peningkatan sumber daya komputasi, kinerja Metal juga menunjukkan peningkatan mendekati linear, yang memberikan potensi praktis untuk skenario aplikasi dengan persyaratan presisi tinggi.
Proyek: https://metal-chart-generation.github.io/
Poin -Poin Kunci:
Kerangka kerja logam diusulkan bersama oleh UCLA, UC Merced dan Adobe untuk mengoptimalkan proses pembuatan grafik.
Kerangka kerja masing -masing terdiri dari empat agen khusus, yang bertanggung jawab untuk menghasilkan, mengevaluasi dan merevisi grafik untuk memastikan bahwa elemen visual dan teknis ditangani dengan benar.
Hasil eksperimen menunjukkan bahwa logam lebih baik daripada metode tradisional dalam hal akurasi dan konsistensi dalam pembuatan grafik, menunjukkan potensi praktis yang baik.