Os modelos de geração de imagens fizeram um progresso significativo no campo da IA nos últimos anos, mas a velocidade com que imagens de alta qualidade têm sido um problema. A mais recente tecnologia de correspondência indutiva de momento de código aberto da Luma AI (IMM) fornece uma solução inovadora para esse problema. Ao otimizar a eficiência do estágio de inferência, o IMM melhorou bastante a velocidade da geração de imagens, que pode ser chamada de "turboalimentada" no campo da IA.
Atualmente, a comunidade de IA geralmente enfrenta o problema do gargalo do pré-treinamento generativo. Embora a quantidade de dados continue a crescer, a inovação do algoritmo está relativamente atrasada. Luma AI apontou que o núcleo do problema não é dados insuficientes, mas a falha dos algoritmos existentes em explorar totalmente o potencial dos dados. É como possuir minas de ouro, mas apenas usando ferramentas originais para extraí -las, o que é ineficiente. Para quebrar esse "teto do algoritmo", a Luma AI voltou sua atenção para a expansão da computação em tempo de inferência e propôs a tecnologia IMM.
O que é único no IMM é que ele redesenha o algoritmo de pré-treinamento da perspectiva da eficiência da inferência. O modelo de difusão tradicional precisa ser ajustado gradualmente e o processo de geração de imagens é como explorar em um labirinto. A IMM, por outro lado, introduziu o conceito de "etapa do tempo -alvo", permitindo que o modelo "salte" com mais flexibilidade no processo de inferência, reduzindo bastante as etapas necessárias para a geração. Esse design não apenas melhora a velocidade, mas também aprimora a capacidade expressiva de cada iteração.
Além disso, o IMM também adota a tecnologia de discrepância média máxima, fornecendo navegação precisa para o processo de inferência e garantindo que o modelo possa gerar eficientemente imagens de alta qualidade. Essa inovação permitiu que os IMMs ultrapassem os métodos tradicionais em velocidade e qualidade.
Os resultados experimentais mostram que o IMM alcançou uma pontuação FID de 1,99 com apenas 30 vezes menos etapas de amostragem no conjunto de dados ImageNet256x256, superando o modelo de difusão e a correspondência de fluxo. No conjunto de dados do CIFAR-10, o IMM obteve uma pontuação FID de 1,98 em apenas 2 etapas, definindo o melhor nível para este conjunto de dados. Essa velocidade de "raio" destaca o IMM no campo da geração de imagens.
Além da vantagem da velocidade, o IMM também teve um bom desempenho na estabilidade do treinamento. Comparado com modelos de consistência e outros modelos que requerem design especial de hiperparâmetro, o IMM pode ser treinado de forma estável sob vários hiperparâmetros e arquiteturas de modelos, reduzindo ainda mais o limite para uso.
A Luma AI enfatiza que o sucesso do IMM não depende apenas da aplicação da tecnologia de correspondência de momentos, mas também de sua ideia de design que coloca o raciocínio em primeiro lugar. Essa perspectiva inovadora lhes permite romper as limitações do paradigma pré-treinamento existente e abrir novas direções para o desenvolvimento de modelos básicos multimodais. Luma AI acredita que o IMM é apenas o começo e liberará um potencial de inteligência mais criativo no futuro.
Repositório do Github: https://github.com/lumalabs/imm