L'Université Tsinghua et Tencent lancent conjointement l'architecture multimodale entièrement open source Oryx pour prendre en charge l'entrée vidéo ultra longue

Auteur：Eve Cole Date de mise à jour：2025-03-07 06:25:01

Ces dernières années, les modèles linguistiques multimodaux à grande échelle ont fait des progrès significatifs dans le domaine de l’intelligence artificielle. Aujourd'hui, l'éditeur de Downcodes présentera un modèle appelé ORYX, développé conjointement par des chercheurs de l'Université Tsinghua, Tencent et de l'Université technologique de Nanyang. Il a démontré des capacités impressionnantes dans le domaine du traitement visuel. ORYX n'est pas qu'un simple système de reconnaissance d'images. Il peut comprendre la relation spatio-temporelle dans les images, les vidéos et les scènes 3D, et peut même discerner l'histoire derrière le contenu comme les humains. Il peut être appelé le « Transformateur » dans le domaine de l'image. traitement visuel. Examinons de plus près ce qui rend ORYX unique.

Aujourd'hui, avec le développement rapide de l'intelligence artificielle, un modèle de langage multimodal à grande échelle appelé ORYX change discrètement notre compréhension de la capacité de l'IA à comprendre le monde visuel. Ce système d'IA, développé conjointement par des chercheurs de l'Université Tsinghua, Tencent et de l'Université technologique de Nanyang, peut être qualifié de transformateur dans le domaine du traitement visuel.

ORYX, le nom complet d'Oryx Multi-Modal Large Language Models, est un modèle d'IA spécialement conçu pour traiter la compréhension spatio-temporelle des images, des vidéos et des scènes 3D. Son principal avantage est qu’il peut non seulement comprendre le contenu visuel comme les humains, mais également comprendre les liens entre le contenu et les histoires qui le sous-tendent.

L’un des points forts de ce système d’IA est sa capacité à traiter les entrées visuelles à n’importe quelle résolution. Qu'il s'agisse de vieilles photos floues ou de vidéos haute définition, ORYX peut les gérer facilement. C'est grâce à son modèle pré-entraîné OryxViT, qui peut convertir des images de différentes résolutions en un format unifié compréhensible par l'IA.

Les capacités de compression dynamique d'ORYX sont encore plus étonnantes. Face à une entrée vidéo à long terme, il peut compresser intelligemment les informations et conserver le contenu clé sans distorsion. C'est comme distiller un livre lourd en une riche carte de notes, qui non seulement conserve les informations de base, mais améliore également considérablement l'efficacité du traitement.

Le principe de fonctionnement d'ORYX repose principalement sur deux composants principaux : l'encodeur visuel OryxViT et le module de compression dynamique. Le premier est responsable du traitement de diverses entrées visuelles, tandis que le second garantit que les données de grande capacité telles que les vidéos à long terme peuvent être traitées efficacement.

Dans les applications pratiques, ORYX a montré un potentiel incroyable. Il peut non seulement comprendre en profondeur le contenu vidéo, y compris les objets, les intrigues et les actions, mais également saisir avec précision la position et la relation des objets dans l'espace 3D. Cette capacité complète de compréhension visuelle offre des possibilités illimitées pour les futures interactions homme-machine, la surveillance intelligente, la conduite autonome et d’autres domaines.

Il convient de mentionner qu'ORYX a obtenu de bons résultats dans plusieurs tests de langage visuel, en particulier dans la compréhension spatiale et temporelle des images, des vidéos et des données 3D multi-vues, montrant ainsi des avantages majeurs.

L’innovation d’ORYX réside non seulement dans ses puissantes capacités de traitement, mais également dans le fait qu’elle ouvre un nouveau paradigme pour la compréhension visuelle de l’IA. Il peut traiter les entrées visuelles à une résolution native tout en traitant efficacement de longues vidéos grâce à une technologie de compression dynamique. Ce type de flexibilité et d'efficacité est difficile à atteindre par d'autres modèles d'IA.

À mesure que la technologie continue de progresser, ORYX devrait jouer un rôle plus important dans le futur domaine de l’IA. Cela aidera non seulement les machines à mieux comprendre notre monde visuel, mais pourrait également fournir de nouvelles idées pour la simulation des processus cognitifs humains.

Adresse papier : https://arxiv.org/pdf/2409.12961

Les capacités multimodales et les méthodes de traitement efficaces d'ORYX ont apporté de nouvelles possibilités dans le domaine de la vision de l'IA, et son développement futur mérite d'être attendu avec impatience. L'éditeur de Downcodes estime qu'à mesure que la technologie continue de mûrir, ORYX jouera un rôle important dans davantage de domaines et favorisera le progrès continu de la technologie de l'intelligence artificielle.