В области визуализации данных генерирование диаграмм, которые точно отражают сложные данные, всегда было сложной задачей. Мало того, что диаграмма необходимо точно захватить визуальные элементы, такие как макет, цвет и текстовое положение, но также необходимо преобразовать эти детали в код для достижения желаемого эффекта проектирования. Тем не менее, традиционные методы часто зависят от прямого подсказки моделей языка зрения (VLMS), таких как GPT-4V, которые часто сталкиваются с трудностями при преобразовании сложных визуальных элементов в синтаксический правильный код Python. Даже небольшие ошибки могут привести к тому, что диаграммы не достигли целей дизайна, что особенно важно в таких областях, как финансовый анализ, академические исследования и образовательная отчетность.
Чтобы решить эту проблему, исследовательская группа из UCLA (Университет Калифорнии, Лос -Анджелес), UC Merced и Adobe предложили новую структуру под названием Metal. Система разбивает задачу генерации диаграмм на серию централизованных шагов, управляемых выделенным агентом, тем самым повышая точность и согласованность генерации диаграммы.

Металлическая структура включает в себя четыре ключевых агента: агент генерации, агент визуальной оценки, агент по оценке кода и агент ревизии. Генератор отвечает за первоначально генерирование кода Python, агент визуальной оценки оценивает, насколько согласованные сгенерированные диаграммы с эталонными диаграммами, агент оценки кода рассматривает сгенерированный код для захвата любых синтаксисов или логических ошибок и, наконец, пересматривает агент для корректировки кода на основе обратной связи оценки. Этот модульный дизайн позволяет каждому агенту сосредоточиться на его конкретной функциональности, гарантируя, что визуальные и технические элементы диаграммы полностью рассматриваются и скорректируются.
В эксперименте металл выполнил оценку производительности в наборе данных chartMimic, и результаты показали, что он превосходил традиционные методы с точки зрения ясности текста, точности типа диаграммы, консистенции цвета и точности макета. Сравнения с моделью с открытым исходным кодом Llama3.2-11B и моделью с замкнутым исходным кодом GPT-4O показывают, что график, генерируемый металлом, ближе к точности эталонного графа. Кроме того, в исследовании также подчеркивалось важность разделения механизмов визуальной оценки и оценки кода с помощью экспериментов с абляцией. Производительность имеет тенденцию разрушаться, когда эти два компонента объединяются в один агент оценки, что предполагает, что специализированные методы оценки имеют решающее значение для высококачественного генерации графа.

Металл обеспечивает сбалансированный многоагентный подход, разбивая задачи на специализированные итерационные шаги. Этот подход не только способствует точному преобразованию визуального дизайна в код Python, но также обеспечивает систематический процесс обнаружения и коррекции ошибок. С увеличением вычислительных ресурсов производительность металла также показывает почти линейное улучшение, которое обеспечивает практическое потенциал для сценариев применения с высокими точности.
Проект: https://metal-chart-generation.github.io/
Ключевые моменты:
Металлическая структура была совместно предложена UCLA, UC Merced и Adobe для оптимизации процесса генерации диаграмм.
Структура состоит из четырех специализированных агентов, соответственно, ответственных за генерацию, оценку и пересмотренные диаграммы, чтобы обеспечить должным образом визуальные и технические элементы.
Экспериментальные результаты показывают, что металл лучше, чем традиционные методы с точки зрения точности и согласованности в генерации графиков, демонстрируя правильный практический потенциал.