Die Leistungsbewertung von Bilderzeugungsmodellen mit künstlicher Intelligenz stand schon immer im Mittelpunkt der Branche. Kürzlich hat Artificial Analysis das „Text-to-Image Ranking and Arena“ ins Leben gerufen, um eine neue Plattform für die objektive Bewertung dieser Modelle bereitzustellen. Durch die umfangreiche Sammlung menschlicher Präferenzdaten und das ELO-Bewertungssystem bewertet und vergleicht die Plattform mehrere führende Modelle, darunter Midjourney, DALL·E, Stable Diffusion usw., und bietet so wertvolle Referenzen für Forscher und Benutzer.
Kürzlich hat die Forschungsorganisation für künstliche Intelligenz Artificial Analysis eine neue Initiative namens „Artificial Analysis Text to Image Leaderboard & Arena“ gestartet, um die Leistung dieser Modelle umfassend zu bewerten.
Übersicht über die EvaluierungsplattformSeit der Einführung diffusionsbasierter Bildgeneratoren vor zwei Jahren haben KI-Bildmodelle nahezu fotografische Qualität erreicht. Artificial Analysis Text to Image Leaderboard & Arena widmet sich dem Vergleich von Open-Source- und proprietären Bilderzeugungsmodellen, um deren Wirksamkeit und Genauigkeit basierend auf menschlichen Vorlieben zu bestimmen.
Die Rangliste der Plattform basiert auf über 45.000 menschlichen Bildpräferenzen, die über die Artificial Analysis Image Arena erfasst und mithilfe des ELO-Bewertungssystems aktualisiert wurden. Die Bewertung umfasst mehrere führende Bildmodelle, darunter Midjourney, DALL·E von OpenAI, Stable Diffusion und Playground AI usw.

Die Plattform nutzt Crowdsourcing, um umfangreiche menschliche Präferenzdaten zu sammeln. Den Teilnehmern wurden ein Stichwort und zwei generierte Bilder gezeigt und sie wählten das Bild aus, das am besten zum Stichwort passte. Jedes Modell generiert mehr als 700 Bilder, die verschiedene Stile und Kategorien abdecken, wie z. B. Porträts, Gruppen, Tiere, Natur und Kunst. Die gesammelten Präferenzdaten werden zur Berechnung des ELO-Scores für jedes Modell verwendet, was zu einer vergleichenden Rangfolge führt.
Erste ErkenntnisseDas Ranking zeigt, dass proprietäre Modelle zwar in der Leistung führend sind, Open-Source-Alternativen jedoch immer wettbewerbsfähiger werden. Modelle wie Midjourney, Stable Diffusion3 und DALL·E3HD führten die Liste an, während das Open-Source-Modell Playground AI v2.5 ebenfalls erhebliche Fortschritte machte und DALL·E3 von OpenAI übertraf.
Bemerkenswert ist, dass sich die Landschaft der Bilderzeugungsmodelle schnell verändert. Beispielsweise wird DALL·E2, das letztes Jahr noch an der Spitze lag, jetzt in weniger als 25 % der Arena ausgewählt und ist auf das am schlechtesten bewertete Modell zurückgefallen.
Beteiligung der ÖffentlichkeitArtificial Analysis ermutigt die Öffentlichkeit, an dieser Überprüfung teilzunehmen. Benutzer können auf Hugging Face auf Bestenlisten zugreifen und über Image Arena am Ranking-Prozess teilnehmen. Nach der Auswahl von 30 Bildern können die Teilnehmer personalisierte Model-Rankings anzeigen, um Einblicke zu gewinnen, die speziell auf ihre Vorlieben zugeschnitten sind.
Dieser Schritt ist ein wichtiger Schritt zum Verständnis und zur Verbesserung von KI-Bilderzeugungsmodellen. Durch die Nutzung menschlicher Vorlieben und einen konsequenten Crowdsourcing-Ansatz liefert die Plattform wertvolle Einblicke in die Vergleichsleistung führender Bildmodelle. Während sich das Feld weiterentwickelt, werden Plattformen wie diese eine Schlüsselrolle bei der Steuerung zukünftiger Entwicklungen und Innovationen in der KI-gesteuerten Bilderzeugung spielen.
Linkadresse der Liste: https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard
Alles in allem bringt „Text-to-Image Ranking and Arena“ von Artificial Analysis eine transparente und wettbewerbsfähige Bewertungsplattform in den Bereich der KI-Bildgenerierung, und ihre kontinuierlichen Aktualisierungen und die Beteiligung der Öffentlichkeit werden den technologischen Fortschritt in diesem Bereich weiter vorantreiben. Wir freuen uns darauf, in Zukunft weitere Modelle hinzuzufügen und Ranking-Änderungen zu sehen.