L'évaluation des performances des modèles de génération d'images d'intelligence artificielle a toujours été au centre de l'industrie. Récemment, Artificial Analysis a lancé le « Text-to-Image Ranking and Arena » pour fournir une nouvelle plate-forme d'évaluation objective de ces modèles. Grâce à la collecte de données à grande échelle sur les préférences humaines et au système de notation ELO, la plateforme classe et compare plusieurs modèles phares, notamment Midjourney, DALL·E, Stable Diffusion, etc., fournissant ainsi une référence précieuse aux chercheurs et aux utilisateurs.
Récemment, l'organisation de recherche en intelligence artificielle Artificial Analysis a lancé une nouvelle initiative appelée « Artificial Analysis Text to Image Leaderboard & Arena » pour évaluer de manière exhaustive les performances de ces modèles.
Aperçu de la plateforme d'évaluationDepuis l’introduction des générateurs d’images basés sur la diffusion il y a deux ans, les modèles d’images IA ont atteint une qualité quasi photographique. Artificial Analysis Text to Image Leaderboard & Arena se consacre à comparer les modèles de génération d'images open source et propriétaires afin de déterminer leur efficacité et leur précision en fonction des préférences humaines.
Les classements de la plateforme sont basés sur plus de 45 000 préférences d'images humaines collectées via Artificial Analysis Image Arena, mises à jour à l'aide du système de notation ELO. L'évaluation couvre plusieurs modèles d'image de premier plan, notamment Midjourney, DALL·E d'OpenAI, Stable Diffusion et Playground AI, etc.

La plateforme utilise le crowdsourcing pour collecter des données sur les préférences humaines à grande échelle. Les participants ont vu un mot indicateur et deux images générées et ont sélectionné celle qui correspondait le mieux au mot indicateur. Chaque modèle génère plus de 700 images couvrant différents styles et catégories, tels que les portraits, les groupes, les animaux, la nature et l'art. Les données de préférence collectées sont utilisées pour calculer le score ELO pour chaque modèle, ce qui donne lieu à un classement comparatif.
Premiers aperçusLe classement montre que même si les modèles propriétaires sont en tête en termes de performances, les alternatives open source deviennent de plus en plus compétitives. Des modèles tels que Midjourney, Stable Diffusion3 et DALL·E3HD sont en tête de liste, tandis que le modèle open source Playground AI v2.5 a également fait des progrès significatifs, dépassant le DALL·E3 d'OpenAI.
Notamment, le paysage des modèles de génération d’images évolue rapidement. Par exemple, DALL·E2, qui occupait encore la première place l'année dernière, est désormais sélectionné dans moins de 25 % de l'arène et est tombé au dernier rang des modèles.
participation du publicArtificial Analysis encourage le public à participer à cette revue. Les utilisateurs peuvent accéder aux classements sur Hugging Face et participer au processus de classement via Image Arena. Après avoir effectué 30 sélections d'images, les participants peuvent afficher des classements de modèles personnalisés pour obtenir des informations spécifiques à leurs préférences.
Cette décision constitue une étape importante vers la compréhension et l’amélioration des modèles de génération d’images IA. En tirant parti des préférences humaines et d’une approche rigoureuse de crowdsourcing, la plateforme fournit des informations précieuses sur les performances comparatives des principaux modèles d’images. À mesure que le domaine continue d’évoluer, des plates-formes comme celles-ci joueront un rôle clé dans l’orientation des futurs développements et innovations en matière de génération d’images basée sur l’IA.
Adresse du lien de la liste : https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard
Dans l'ensemble, le « Text-to-Image Ranking and Arena » d'Artificial Analysis apporte une plate-forme d'évaluation transparente et compétitive dans le domaine de la génération d'images d'IA, et ses mises à jour continues et la participation du public favoriseront davantage le progrès technologique dans ce domaine. Nous attendons avec impatience de voir davantage de modèles ajoutés et de changements de classement à l'avenir.