No campo da visão computacional, como processar imagens com eficiência sempre foi um tópico importante na pesquisa. Recentemente, o professor Li Feifei e a equipe da Universidade de Stanford do Professor Wu Jiajun divulgaram um novo resultado de pesquisa, propondo um tokenizador de imagem inovador chamado "Flowmo". Essa nova abordagem melhora significativamente a qualidade da reconstrução da imagem sem depender de redes neurais convolucionais (CNNs) e redes adversárias generativas (GANS).
Quando vemos uma foto de um gato, o cérebro pode reconhecer instantaneamente que é um gato. No entanto, para computadores, o processamento de imagens parece muito mais complicado. Os computadores tratam as imagens como números enormes, geralmente exigindo milhões de números para representar cada pixel. Para que os modelos de IA aprendam com eficiência, os pesquisadores precisam comprimir imagens em uma forma mais facilmente processada, um processo chamado "tokenização". Os métodos tradicionais geralmente dependem de redes convolucionais complexas e aprendizado adversário, mas esses métodos têm certas limitações.

A inovação principal da Flowmo está em sua estratégia de treinamento exclusiva em dois estágios. Primeiro, o modelo é aprendido no primeiro estágio, capturando vários resultados possíveis de reconstrução de imagens, o que garante que a diversidade de imagens gerada e a qualidade coexistem. Em seguida, o segundo estágio se concentra na otimização dos resultados da reconstrução para torná -los mais próximos da imagem original. Esse processo não apenas melhora a precisão da reconstrução, mas também aprimora a qualidade da percepção visual das imagens geradas.
Os resultados experimentais mostram que o FlowMO tem um desempenho melhor do que o tokenizador de imagem tradicional em vários conjuntos de dados padrão. Por exemplo, no conjunto de dados ImageNet-1K, o desempenho da reconstrução do Flowmo obteve resultados ótimos em várias configurações de taxa de bits. Especialmente a uma taxa de bits baixa, o valor FID de reconstrução do Flowmo é de 0,95, excedendo em muito o melhor modelo.
Esta pesquisa da equipe de Li Feifei marca um importante avanço na tecnologia de processamento de imagens, que não apenas fornece novas idéias para futuros modelos de geração de imagens, mas também estabelece as bases para a otimização de vários cenários de aplicação visual. Com o avanço contínuo da tecnologia, a geração e o processamento de imagens se tornarão mais eficientes e inteligentes.