Nos últimos anos, os modelos de linguagem multimodais em grande escala fizeram progressos significativos no campo da inteligência artificial. Hoje, o editor do Downcodes apresentará um modelo chamado ORYX, que foi desenvolvido em conjunto por pesquisadores da Universidade Tsinghua, Tencent e Universidade Tecnológica de Nanyang. Ele demonstrou capacidades impressionantes na área de processamento visual. ORYX não é apenas um simples sistema de reconhecimento de imagem, ele pode compreender a relação espaço-temporal em imagens, vídeos e cenas 3D, e pode até discernir a história por trás do conteúdo como os humanos. processamento visual. Vamos dar uma olhada mais de perto no que torna o ORYX único.
Hoje, com o rápido desenvolvimento da inteligência artificial, um modelo de linguagem multimodal em grande escala chamado ORYX está silenciosamente mudando a nossa compreensão da capacidade da IA de compreender o mundo visual. Este sistema de IA, desenvolvido em conjunto por pesquisadores da Universidade de Tsinghua, da Tencent e da Universidade Tecnológica de Nanyang, pode ser chamado de Transformador na área de processamento visual.
ORYX, o nome completo de Oryx Multi-Modal Large Language Models, é um modelo de IA especialmente projetado para processar a compreensão espaço-temporal de imagens, vídeos e cenas 3D. Sua principal vantagem é que ele pode não apenas compreender o conteúdo visual como os humanos, mas também compreender as conexões entre o conteúdo e as histórias por trás dele.

Um dos destaques deste sistema de IA é a sua capacidade de processar entradas visuais em qualquer resolução. Quer se trate de fotos antigas desfocadas ou vídeos de alta definição, o ORYX pode lidar com isso facilmente. Isso se deve ao seu modelo pré-treinado OryxViT, que pode converter imagens de diferentes resoluções em um formato unificado compreensível pela IA.
Ainda mais surpreendentes são os recursos de compressão dinâmica do ORYX. Diante da entrada de vídeo de longo prazo, ele pode compactar informações de forma inteligente e reter o conteúdo principal sem distorção. É como destilar um livro pesado em um rico cartão de notas, que não apenas retém as informações principais, mas também melhora muito a eficiência do processamento.

O princípio de funcionamento do ORYX depende principalmente de dois componentes principais: o codificador visual OryxViT e o módulo de compressão dinâmica. O primeiro é responsável pelo processamento de diversas entradas visuais, enquanto o último garante que dados de grande capacidade, como vídeos de longa duração, possam ser processados de forma eficiente.
Em aplicações práticas, o ORYX demonstrou um potencial incrível. Ele pode não apenas compreender profundamente o conteúdo do vídeo, incluindo objetos, enredos e ações, mas também compreender com precisão a posição e a relação dos objetos no espaço 3D. Esta capacidade abrangente de compreensão visual traz possibilidades ilimitadas para futuras interações homem-computador, monitoramento inteligente, direção autônoma e outros campos.
Vale ressaltar que o ORYX teve um bom desempenho em vários benchmarks de linguagem visual, especialmente na compreensão espacial e temporal de imagens, vídeos e dados 3D multivisualização, mostrando vantagens importantes.
A inovação do ORYX reside não apenas nas suas poderosas capacidades de processamento, mas também no facto de abrir um novo paradigma para a compreensão visual da IA. Ele pode processar entradas visuais em resolução nativa enquanto processa vídeos longos com eficiência por meio de tecnologia de compressão dinâmica. Esse tipo de flexibilidade e eficiência é difícil de alcançar por outros modelos de IA.
À medida que a tecnologia continua a avançar, espera-se que a ORYX desempenhe um papel mais importante no futuro campo da IA. Não só ajudará as máquinas a compreender melhor o nosso mundo visual, mas também poderá fornecer novas ideias para a simulação de processos cognitivos humanos.
Endereço do artigo: https://arxiv.org/pdf/2409.12961
As capacidades multimodais e os métodos de processamento eficientes do ORYX trouxeram novas possibilidades para o campo da visão da IA, e vale a pena esperar pelo seu desenvolvimento futuro. O editor do Downcodes acredita que à medida que a tecnologia continua a amadurecer, a ORYX desempenhará um papel importante em mais campos e promoverá o progresso contínuo da tecnologia de inteligência artificial.