За последние годы мультимодальные крупномасштабные языковые модели добились значительного прогресса в области искусственного интеллекта. Сегодня редактор Downcodes представит модель под названием ORYX, которая была разработана совместно исследователями из Университета Цинхуа, Tencent и Технологического университета Наньяна. Она продемонстрировала впечатляющие возможности в области визуальной обработки. ORYX — это не просто простая система распознавания изображений. Она может понимать пространственно-временные отношения в изображениях, видео и 3D-сценах и даже распознавать историю контента, как люди. В области кино ее можно назвать «Трансформером». визуальная обработка. Давайте подробнее рассмотрим, что делает ORYX уникальным.
Сегодня, с быстрым развитием искусственного интеллекта, мультимодальная крупномасштабная языковая модель под названием ORYX незаметно меняет наше представление о способности ИИ понимать визуальный мир. Эту систему искусственного интеллекта, совместно разработанную исследователями из Университета Цинхуа, Tencent и Наньянского технологического университета, можно назвать Трансформатором в области обработки изображений.
ORYX, полное название мультимодальных больших языковых моделей Oryx, представляет собой модель искусственного интеллекта, специально разработанную для обработки пространственно-временного понимания изображений, видео и трехмерных сцен. Его основное преимущество заключается в том, что он может не только понимать визуальный контент, как люди, но также понимать связи между контентом и стоящими за ним историями.

Одной из особенностей этой системы искусственного интеллекта является ее способность обрабатывать визуальный ввод в любом разрешении. Будь то размытые старые фотографии или видео высокой четкости, ORYX легко справится с этим. Это происходит благодаря предварительно обученной модели OryxViT, которая может конвертировать изображения разного разрешения в единый формат, понятный ИИ.
Еще более удивительными являются возможности динамического сжатия ORYX. Благодаря длительному видеовходу он может разумно сжимать информацию и сохранять ключевой контент без искажений. Это похоже на превращение тяжелой книги в богатую карточку для заметок, которая не только сохраняет основную информацию, но и значительно повышает эффективность обработки.

Принцип работы ORYX в основном основан на двух основных компонентах: визуальном кодировщике OryxViT и модуле динамического сжатия. Первый отвечает за обработку различных визуальных данных, а второй обеспечивает эффективную обработку данных большого объема, таких как долгосрочные видео.
В практическом применении ORYX продемонстрировал удивительный потенциал. Он способен не только глубоко понимать видеоконтент, включая объекты, сюжеты и действия, но и точно улавливать положение и взаимоотношения объектов в 3D-пространстве. Эта комплексная возможность визуального понимания открывает неограниченные возможности для будущего взаимодействия человека с компьютером, интеллектуального мониторинга, автономного вождения и других областей.
Стоит отметить, что ORYX хорошо показал себя во многих тестах визуального языка, особенно в пространственном и временном понимании изображений, видео и многопросмотровых 3D-данных, демонстрируя ведущие преимущества.
Инновация ORYX заключается не только в его мощных вычислительных возможностях, но и в том, что он открывает новую парадигму визуального понимания ИИ. Он может обрабатывать визуальный ввод с исходным разрешением, одновременно эффективно обрабатывая длинные видео с помощью технологии динамического сжатия. Такой гибкости и эффективности трудно достичь с помощью других моделей искусственного интеллекта.
Ожидается, что по мере развития технологий ORYX будет играть более важную роль в будущей области искусственного интеллекта. Это не только поможет машинам лучше понять наш визуальный мир, но также может предоставить новые идеи для моделирования когнитивных процессов человека.
Адрес статьи: https://arxiv.org/pdf/2409.12961.
Мультимодальные возможности ORYX и эффективные методы обработки открыли новые возможности в области видения искусственного интеллекта, и стоит с нетерпением ждать его будущего развития. Редактор Downcodes считает, что по мере дальнейшего развития технологии ORYX будет играть важную роль во многих областях и способствовать постоянному прогрессу технологий искусственного интеллекта.