인공지능 이미지 생성 모델의 성능 평가는 늘 업계의 화두였습니다. 최근 인공 분석에서는 이러한 모델을 객관적으로 평가할 수 있는 새로운 플랫폼을 제공하기 위해 "텍스트-이미지 순위 및 아레나"를 출시했습니다. 대규모 인간 선호도 데이터 수집 및 ELO 채점 시스템을 통해 플랫폼은 Midjourney, DALL·E, Stable Diffusion 등을 포함한 여러 주요 모델의 순위를 매기고 비교하여 연구원과 사용자에게 귀중한 참고 자료를 제공합니다.
최근 인공지능 연구 기관인 인공분석(Artificial Analysis)은 이러한 모델의 성능을 종합적으로 평가하기 위해 '인공분석 텍스트 투 이미지 리더보드 & 아레나(Artificial Analysis Text to Image Leaderboard & Arena)'라는 새로운 이니셔티브를 출시했습니다.
평가 플랫폼 개요2년 전 확산 기반 이미지 생성기가 도입된 이후 AI 이미지 모델은 사진에 가까운 품질을 달성했습니다. 인공 분석 텍스트-이미지 리더보드 및 아레나는 오픈 소스와 독점 이미지 생성 모델을 비교하여 인간 선호도에 따라 효율성과 정확성을 결정하는 데 전념하고 있습니다.
플랫폼의 순위는 ELO 채점 시스템을 사용하여 업데이트된 인공 분석 이미지 아레나를 통해 수집된 45,000개 이상의 인간 이미지 선호도를 기반으로 합니다. 평가에는 Midjourney, OpenAI의 DALL·E, Stable Diffusion 및 Playground AI 등을 포함한 여러 주요 이미지 모델이 포함됩니다.

플랫폼은 크라우드소싱을 사용하여 대규모 인간 선호도 데이터를 수집합니다. 참가자들에게는 큐 단어와 생성된 두 개의 이미지가 표시되었으며 큐 단어와 가장 잘 일치하는 이미지를 선택했습니다. 각 모델은 초상화, 그룹, 동물, 자연, 예술 등 다양한 스타일과 카테고리를 포괄하는 700개 이상의 이미지를 생성합니다. 수집된 선호도 데이터는 각 모델의 ELO 점수를 계산하여 비교 순위를 결정하는 데 사용됩니다.
초기 통찰력순위는 독점 모델이 성능을 주도하는 반면 오픈 소스 대안의 경쟁이 점점 더 치열해지고 있음을 보여줍니다. Midjourney, Stable Diffusion3, DALL·E3HD 등의 모델이 1위에 올랐고, 오픈소스 모델인 Playground AI v2.5도 OpenAI의 DALL·E3를 앞지르며 상당한 발전을 이루었습니다.
특히, 이미지 생성 모델의 환경은 빠르게 변화하고 있습니다. 예를 들어 지난해에도 여전히 선두 자리를 지키고 있던 DALL·E2는 현재 25% 미만의 경기장에 선정돼 최하위 모델로 추락했다.
대중 참여인공 분석은 대중이 이 검토에 참여하도록 권장합니다. 사용자는 Hugging Face의 리더보드에 액세스할 수 있으며 Image Arena를 통해 순위 프로세스에 참여할 수 있습니다. 30개의 이미지 선택을 완료한 후 참가자는 개인화된 모델 순위를 보고 자신의 선호도에 맞는 통찰력을 얻을 수 있습니다.
이러한 움직임은 AI 이미지 생성 모델을 이해하고 개선하기 위한 중요한 단계입니다. 인간의 선호도와 엄격한 크라우드소싱 접근 방식을 활용함으로써 플랫폼은 주요 이미지 모델의 비교 성능에 대한 귀중한 통찰력을 제공합니다. 이 분야가 계속 발전함에 따라 이와 같은 플랫폼은 AI 기반 이미지 생성의 미래 개발과 혁신을 이끄는 데 핵심적인 역할을 할 것입니다.
목록 링크 주소: https://huggingface.co/spaces/ArtificialAnalytic/Text-to-Image-Leaderboard
전체적으로 인공 분석의 "텍스트-이미지 순위 및 아레나"는 AI 이미지 생성 분야에 투명하고 경쟁력 있는 평가 플랫폼을 제공하며, 지속적인 업데이트와 대중 참여는 이 분야의 기술 발전을 더욱 촉진할 것입니다. 앞으로도 더 많은 모델이 추가되고 순위가 변동될 수 있기를 기대합니다.