Sitio web oficial www.binance.com/zh-cn :ingrese el sitio web oficial ☜☜
Aplicación: ☞☞Official App Download☜☜
En el campo de la visión por computadora, cómo procesar imágenes de manera eficiente siempre ha sido un tema candente en la investigación. Recientemente, el equipo del profesor Li Feifei y el equipo del profesor Wu Jiajun de la Universidad de Stanford publicaron un nuevo resultado de investigación, que propone un innovador tokenizador de imágenes llamado "Flowmo". Este nuevo enfoque mejora significativamente la calidad de la reconstrucción de imágenes sin depender de las redes neuronales convolucionales (CNN) y las redes adversas generativas (GAN).
Cuando vemos una foto de un gato, el cerebro puede reconocer instantáneamente que es un gato. Sin embargo, para las computadoras, el procesamiento de imágenes parece mucho más complicado. Las computadoras tratan las imágenes como grandes números, que a menudo requieren millones de números para representar cada píxel. Para que los modelos de IA aprendan de manera eficiente, los investigadores necesitan comprimir imágenes en una forma más fácil de procesar, un proceso llamado "tokenización". Los métodos tradicionales a menudo dependen de redes convolucionales complejas y aprendizaje adversario, pero estos métodos tienen ciertas limitaciones.

La innovación central de Flowmo radica en su estrategia única de capacitación en dos etapas. Primero, el modelo se aprende en la primera etapa capturando múltiples resultados posibles de reconstrucción de imágenes, lo que garantiza que la diversidad de imágenes generadas y la calidad coexistan. A continuación, la segunda etapa se centra en optimizar los resultados de la reconstrucción para aclararlos a la imagen original. Este proceso no solo mejora la precisión de la reconstrucción, sino que también mejora la calidad de percepción visual de las imágenes generadas.
Los resultados experimentales muestran que FlowMO funciona mejor que el tokenizador de imagen tradicional en múltiples conjuntos de datos estándar. Por ejemplo, en el conjunto de datos ImageNet-1K, el rendimiento de reconstrucción de FlowMO logró resultados óptimos en la configuración de la velocidad de bits múltiples. Especialmente a baja velocidad de bits, el valor de FID de reconstrucción de FlowMO es 0.95, superando con creces el mejor modelo en la actualidad.
Esta investigación del equipo de Li Feifei marca un avance importante en la tecnología de procesamiento de imágenes, que no solo proporciona nuevas ideas para futuros modelos de generación de imágenes, sino que también establece las bases para la optimización de varios escenarios de aplicaciones visuales. Con el avance continuo de la tecnología, la generación y el procesamiento de imágenes serán más eficientes e inteligentes.