A avaliação de desempenho de modelos de geração de imagens de inteligência artificial sempre foi o foco da indústria. Recentemente, a Artificial Analysis lançou o "Text-to-Image Ranking and Arena" para fornecer uma nova plataforma para avaliação objetiva desses modelos. Através da coleta de dados de preferências humanas em larga escala e do sistema de pontuação ELO, a plataforma classifica e compara vários modelos líderes, incluindo Midjourney, DALL·E, Stable Diffusion, etc., fornecendo referências valiosas para pesquisadores e usuários.
Recentemente, a organização de pesquisa em inteligência artificial Artificial Analysis lançou uma nova iniciativa chamada "Artificial Analysis Text to Image Leaderboard & Arena" para avaliar de forma abrangente o desempenho desses modelos.
Visão geral da plataforma de avaliaçãoDesde a introdução dos geradores de imagens baseados em difusão, há dois anos, os modelos de imagem de IA alcançaram uma qualidade quase fotográfica. Análise Artificial Text to Image Leaderboard & Arena se dedica a comparar modelos de geração de imagens de código aberto e proprietários para determinar sua eficácia e precisão com base nas preferências humanas.
As classificações da plataforma são baseadas em mais de 45.000 preferências de imagens humanas coletadas por meio do Artificial Analysis Image Arena, atualizadas usando o sistema de pontuação ELO. A avaliação abrange vários modelos de imagem líderes, incluindo Midjourney, DALL·E da OpenAI, Stable Diffusion e Playground AI, etc.

A plataforma usa crowdsourcing para coletar dados de preferências humanas em grande escala. Os participantes viram uma palavra-chave e duas imagens geradas e selecionaram aquela que melhor correspondia à palavra-chave. Cada modelo gera mais de 700 imagens abrangendo diferentes estilos e categorias, como retratos, grupos, animais, natureza e arte. Os dados de preferência coletados são utilizados para calcular a pontuação ELO de cada modelo, resultando em uma classificação comparativa.
Insights iniciaisA classificação mostra que, embora os modelos proprietários liderem em desempenho, as alternativas de código aberto estão se tornando cada vez mais competitivas. Modelos como Midjourney, Stable Diffusion3 e DALL·E3HD estão no topo da lista, enquanto o modelo de código aberto Playground AI v2.5 também fez progressos significativos, superando o DALL·E3 da OpenAI.
Notavelmente, o panorama dos modelos de geração de imagens está mudando rapidamente. Por exemplo, DALL·E2, que ainda ocupava a posição de liderança no ano passado, agora é selecionado em menos de 25% da arena e caiu para o modelo de classificação mais baixa.
participação públicaA Análise Artificial incentiva o público a participar desta revisão. Os usuários podem acessar tabelas de classificação no Hugging Face e participar do processo de classificação por meio do Image Arena. Depois de completar 30 seleções de imagens, os participantes podem visualizar classificações personalizadas de modelos para obter insights específicos de suas preferências.
Esta mudança é um passo importante para compreender e melhorar os modelos de geração de imagens de IA. Ao aproveitar as preferências humanas e uma abordagem rigorosa de crowdsourcing, a plataforma fornece informações valiosas sobre o desempenho comparativo dos principais modelos de imagem. À medida que o campo continua a evoluir, plataformas como estas desempenharão um papel fundamental na orientação de futuros desenvolvimentos e inovações na geração de imagens orientadas por IA.
Endereço do link da lista: https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard
Em suma, o "Classificação e Arena de Texto para Imagem" da Artificial Analysis traz uma plataforma de avaliação transparente e competitiva para o campo da geração de imagens de IA, e suas atualizações contínuas e participação pública promoverão ainda mais o progresso tecnológico neste campo. Esperamos ver mais modelos adicionados e mudanças de classificação no futuro.