Site Web officiel www.binance.com/ZH-CN :Entrez le site officiel ☜☜
Application: ☞☞Official App Download☜☜
Dans le domaine de la vision par ordinateur, comment traiter efficacement les images a toujours été un sujet brûlant dans la recherche. Récemment, le professeur Li Feifei et l'équipe du professeur Wu Jiajun de l'Université de Stanford ont publié un nouveau résultat de recherche, proposant un tokenizer d'image innovant appelé "Flowmo". Cette nouvelle approche améliore considérablement la qualité de la reconstruction de l'image sans s'appuyer sur les réseaux de neurones convolutionnels (CNN) et les réseaux adversariens génératifs (GAN).
Lorsque nous voyons une photo d'un chat, le cerveau peut reconnaître instantanément qu'il s'agit d'un chat. Cependant, pour les ordinateurs, le traitement des images semble beaucoup plus compliqué. Les ordinateurs traitent les images comme des nombres énormes, nécessitant souvent des millions de nombres pour représenter chaque pixel. Pour que les modèles d'IA apprennent efficacement, les chercheurs doivent compresser les images sous une forme plus facilement traitée, un processus appelé "tokenisation". Les méthodes traditionnelles reposent souvent sur des réseaux convolutionnels complexes et l'apprentissage contradictoire, mais ces méthodes ont certaines limites.

L'innovation principale de Flowmo réside dans sa stratégie de formation unique en deux étapes. Premièrement, le modèle est appris dans la première étape en capturant plusieurs résultats de reconstruction d'images possibles, ce qui garantit que la diversité d'image et la qualité générées coexistent. Ensuite, la deuxième étape se concentre sur l'optimisation des résultats de reconstruction pour les rapprocher de l'image d'origine. Ce processus améliore non seulement la précision de la reconstruction, mais améliore également la qualité de la perception visuelle des images générées.
Les résultats expérimentaux montrent que Flowmo fonctionne mieux que le tokenizer d'image traditionnel sur plusieurs ensembles de données standard. Par exemple, sur l'ensemble de données ImageNet-1k, les performances de reconstruction de Flowmo ont obtenu des résultats optimaux sur plusieurs paramètres de débit binaire. Surtout à un faible débit binaire, la valeur FID de reconstruction de Flowmo est de 0,95, dépassant de loin le meilleur modèle actuellement.
Cette recherche de l'équipe de Li Feifei marque une percée importante dans la technologie de traitement d'image, qui fournit non seulement de nouvelles idées pour les futurs modèles de génération d'images, mais jette également les bases de l'optimisation de divers scénarios d'application visuelle. Avec l'avancement continu de la technologie, la génération d'images et le traitement deviendront plus efficaces et intelligents.