Dans le domaine de la visualisation des données, la génération de graphiques qui reflètent avec précision les données complexes ont toujours été une tâche difficile. Non seulement le graphique doit capturer avec précision les éléments visuels tels que la mise en page, la couleur et la position du texte, mais il doit également convertir ces détails en code pour réaliser l'effet de conception souhaité. Cependant, les méthodes traditionnelles reposent souvent sur des modèles directs en matière de vision (VLM), tels que GPT-4V, qui rencontrent souvent des difficultés lors de la conversion des éléments visuels complexes en code python correct syntaxtique. Même les petites erreurs peuvent faire en sorte que les graphiques ne atteignent pas les objectifs de conception, ce qui est particulièrement important dans des domaines tels que l'analyse financière, la recherche universitaire et les rapports éducatifs.
Pour résoudre ce problème, une équipe de recherche de l'UCLA (Université de Californie, Los Angeles), UC Merced et Adobe ont proposé un nouveau cadre appelé Metal. Le système décompose la tâche de génération du graphique en une série d'étapes centralisées gérées par un agent dédié, améliorant ainsi la précision et la cohérence de la génération du graphique.

Le cadre métallique comprend quatre agents clés: l'agent de génération, l'agent d'évaluation visuelle, l'agent d'évaluation du code et l'agent de révision. Le générateur est responsable de la génération initiale du code Python, l'agent d'évaluation visuelle évalue à quel point les graphiques générés sont cohérents avec les diagrammes de référence, l'agent d'évaluation du code passe en revue le code généré pour capturer toute syntaxe ou des erreurs logiques, et révise enfin l'agent pour ajuster le code en fonction de la rétroaction d'évaluation. Cette conception modulaire permet à chaque agent de se concentrer sur ses fonctionnalités spécifiques, garantissant que les éléments visuels et techniques du graphique sont pleinement pris en compte et ajustés.
Dans l'expérience, le métal a effectué une évaluation des performances sur l'ensemble de données Chartmimic, et les résultats ont montré qu'il était supérieur aux méthodes traditionnelles en termes de clarté texte, de précision du type de graphique, de cohérence des couleurs et de précision de mise en page. Les comparaisons avec le modèle open source LLAMA3.2-11b et le modèle de source fermée GPT-4O montrent que le graphique généré par le métal est plus proche de la précision du graphique de référence. De plus, l'étude a également souligné l'importance de la séparation des mécanismes visuels et d'évaluation du code à travers des expériences d'ablation. Les performances ont tendance à se dégrader lorsque ces deux composants sont combinés en un seul agent d'évaluation, ce qui suggère que les méthodes d'évaluation spécialisées sont essentielles pour la génération de graphiques de haute qualité.

Le métal offre une approche multi-agents équilibrée en décomposant les tâches en étapes itératives spécialisées. Cette approche favorise non seulement la conversion précise de la conception visuelle en code Python, mais fournit également un processus systématique de détection et de correction d'erreur. Avec l'augmentation des ressources informatiques, les performances de Metal montrent également une amélioration presque linéaire, qui offre un potentiel pratique de scénarios d'application avec des exigences de haute précision.
Projet: https://metal-chart-generation.github.io/
Points clés:
Le cadre métallique a été proposé conjointement par UCLA, UC Merced et Adobe pour optimiser le processus de génération de graphiques.
Le cadre se compose respectivement de quatre agents dédiés, responsables de la génération, de l'évaluation et de la révision des graphiques pour s'assurer que les éléments visuels et techniques sont correctement gérés.
Les résultats expérimentaux montrent que le métal est meilleur que les méthodes traditionnelles en termes de précision et de cohérence dans la génération de graphiques, montrant un bon potentiel pratique.