Shanghai AI Lab с открытым исходным кодом Super Multimodal LLM Internlm-Xcomposer-2.5-Статьи AI

Автор：Eve Cole Время обновления：2025-02-22 02:50:02

Шанхайская лаборатория AI недавно выпустила мультимодальную большую языковую модель под названием Internlm-Xcomposer-2.5 (IXC-2,5, на короткое время), и этот проект с открытым исходным кодом привлек широкое внимание в области искусственного интеллекта. Эта модель не только достигла многих прорывов в области технологий, но и демонстрировала большой потенциал в практических приложениях, особенно в понимании изображения сверхвысокого разрешения, мелкозернистого видеопонимания и диалога с многоуровневым изображением.

Выпуск IXC-2.5 заполнил пробел в области мультимодальной LLM в Китае, особенно в производстве веб-страниц и генерации смешанных графических и текстовых статей. Будь то веб-дизайн или генерация графического контента, IXC-2.5 может обеспечить эффективные и точные решения, значительно повышая творческую эффективность.

Основные особенности модели IXC-2.5 включают:

Длинная возможность обработки контекста: модель изначально поддерживает 24-километровые маркерные входы и может быть расширена до 96K, что означает, что она может обрабатывать ультра-длинные входы текста и изображения, предоставляя пользователям более творческое пространство. Будь то сложные документы или большие объемы данных изображения, IXC-2.5 может легко справиться с ним.

Разнообразные визуальные возможности: IXC-2.5 не только поддерживает понимание изображения сверхвысокого разрешения, но также позволяет мелкозернистое понимание видео и многоразмерный мульти-графический диалог. Эта мультимодальная обработка является чрезвычайно редкой в предыдущих моделях, особенно с точки зрения понимания видео.

Сильная возможность генерации: IXC-2.5 может генерировать веб-страницы и высококачественные графические статьи, выводя комбинацию текста и изображений на новый уровень. Будь то веб-дизайн или генерация статей смешанного текста, IXC-2.5 может обеспечить высококачественный выход для удовлетворения потребностей различных сценариев.

Архитектура Advanced Model: IXC-2.5 использует легкий кодер видения, модели с большими языками и некоторые технологии выравнивания LORA. Особенно при работе со сложными мультимодальными данными, IXC-2,5 демонстрирует отличную эффективность.

Из 28 тестов IXC-2,5 превзошли существующую модель с открытым исходным кодом в 16 тестах, а производительность в еще 16 тестах была близка или превзошла GPT-4V и Gemini Pro. Этот результат теста полностью доказывает сильную силу IXC-2,5, особенно в таких задачах, как понимание видео, структурированное понимание изображений с высоким разрешением, множество раундов многократных диалогов и общих визуальных вопросов и ответов. Конкурентоспособность.

Команда R & D IXC-2,5 совместно состоит из лаборатории Шанхайского искусственного интеллекта, Китайского университета Гонконга, Technology Group Sensetime и Университета Цинхуа. Первоначальный дизайн этой модели заключается в поддержке ввода и вывода с длинным контекстом, чтобы справиться со все более сложным текстовым пониманием и задачами создания. На этапе предварительного обучения IXC-2.5 расширяет окно контекста до 96K за экстраполяцию кодирования положения, что демонстрирует выдающиеся возможности во взаимодействии человека и компьютеров и создании контента.

С точки зрения обработки изображений, IXC-2.5 принимает единую стратегию сегментации динамического изображения, которая может адаптироваться к изображениям любого разрешения и соотношения сторон. С точки зрения обработки видео, он может сплачивать рамки в видео вдоль коротких ребра, чтобы сформировать изображения с высоким разрешением при сохранении индекса кадров для обеспечения времени времени. Этот подход заставляет IXC-2.5 хорошо работать в задачах понимания видео.

Кроме того, IXC-2.5 также расширяет свое приложение в генерации веб-страниц, позволяя автоматически создавать веб-страницы на основе визуальных скриншотов, инструкций бесплатной формы или возобновления документов. С точки зрения создания статьи текстового изображения, IXC-2.5 предлагает масштабируемый процесс путем объединения нескольких технологий для генерации высококачественных и стабильных текстовых изображений.

Открытый источник IXC-2,5-это не только технологический скачок, но и большой вклад во всю область искусственного интеллекта. Это позволяет нам увидеть бесконечные возможности мультимодальной LLM, а также открывает новые пути для будущих приложений искусственного интеллекта. Будь то создание контента, веб-дизайн или мультимодальная обработка данных, IXC-2.5 станет важным инструментом в будущих приложениях искусственного интеллекта.

Адрес проекта: https://top.aibase.com/tool/internlm-xcomposer-2-5

Бумажный адрес: https://arxiv.org/pdf/2407.03320