A startup de inteligência artificial Luma lançou recentemente uma tecnologia de pré-treinamento de modelo de imagem de código aberto chamado Momento Indutivo (IMM) na plataforma X. Essa tecnologia atraiu atenção generalizada no campo da IA generativa por sua eficiência e estabilidade e é considerada um grande avanço nesse campo.
De acordo com o X Usuário Linqi_zhou, o Imm é um paradigma de nova geração que pode obter treinamento estável do zero através de modelos únicos e objetivos únicos. Comparado aos métodos tradicionais, os IMMs têm melhor desempenho na eficiência da amostra e na qualidade da amostra. Ele mencionou no post: "A IMM alcançou 1,99FID em apenas 8 etapas no conjunto de dados ImageNet256 × 256 e 1,98FID em apenas 2 etapas no CIFAR-10". Essa conquista não apenas atualizou o padrão da indústria, mas também demonstrou o enorme potencial do IMM no campo da geração de imagens.
Comparado com o atual modelo de difusão convencional, o IMM aumentou a eficiência da amostragem em mais de 10 vezes, mantendo uma maior qualidade da amostra. X Usuário Op7418 explica ainda os princípios técnicos dos modelos de difusão IMM: os tradicionais são menos eficientes devido às limitações da interpolação linear e da convergência em várias etapas, enquanto o IMM melhora significativamente a flexibilidade, processando simultaneamente a etapa de tempo atual e a etapa do tempo-alvo durante o processo de inferência. Esse design “raciocínio primeiro” permite que o modelo gere imagens de alta qualidade em menos etapas, rompendo assim o gargalo algorítmico do modelo de difusão.
Além disso, o IMM também é melhor que os modelos de consistência em termos de estabilidade do treinamento. OP7418 ressalta que os modelos de consistência são propensos à dinâmica instável durante o treinamento, enquanto os IMMs mostram robustez mais forte e podem se adaptar a uma variedade de hiperparâmetros e arquiteturas de modelos. Esse recurso torna a Imm mais confiável em aplicações práticas.
A iniciativa IMM de código aberto da Luma recebeu elogios da comunidade. X User Financeyf5 comentou: "A tecnologia IMM da Luma Labs melhorou a eficiência da geração de imagens em 10 vezes em comparação com os métodos existentes, rompendo com sucesso o gargalo do algoritmo do modelo de difusão!" Ele também anexou um link à introdução da tecnologia relevante, que desencadeou mais discussões entre os usuários. O código e os pontos de verificação da IMM foram publicados através do GitHub, e os detalhes técnicos também foram elaborados em artigos relacionados, refletindo totalmente a determinação de Luma de promover a abertura da pesquisa da IA.
Os dados de desempenho da IMM prova ainda sua posição de liderança. No conjunto de dados IMAGENET256 × 256, o IMM superou o modelo de difusão (2.27FID) e a correspondência de fluxo (2.15FID) com 1,99FID, e a etapa de amostragem foi reduzida em 30 vezes. No conjunto de dados CIFAR-10, o IMM alcançou 1,98FID em apenas 2 etapas de amostragem, definindo o melhor registro para este conjunto de dados. O OP7418 também mencionou que o IMM possui excelente escalabilidade de computação. Com o aumento da computação de treinamento e inferência, o desempenho continua a melhorar, estabelecendo as bases para aplicações em maior escala no futuro.
Acredita -se amplamente no setor que o código aberto de IMMs possa desencadear uma mudança de paradigma na tecnologia de geração de imagens. Com suas propriedades eficientes, de alta qualidade e estáveis, a IMM não é apenas adequada para geração de imagens, mas também possível se estender aos campos de vídeo e multimodais. A equipe de Luma disse que o IMM é apenas o primeiro passo em direção a um modelo básico multimodal, e eles esperam desbloquear mais possibilidades de inteligência criativa através dessa tecnologia.
Com o lançamento do IMM, a posição de Luma na competição global da IA tornou -se cada vez mais proeminente. As perspectivas de aplicação generalizadas dessa tecnologia e seu impacto disruptivo nos modelos existentes devem continuar a desencadear discussões acaloradas nos próximos meses.