В последние годы крупные языковые модели (LLMS) добились прорыва в области искусственного интеллекта, особенно в мультимодальном слиянии. Совместная команда из Университета наук и технологий Хуажонга, Байеданс и Университета Гонконга недавно предложила инновационную мультимодальную структуру генерации - жидкость, направленную на решение ограничений современных основных мультимодальных моделей в визуальной обработке. Появление этой технологии знаменует собой дальнейшее развитие искусственного интеллекта в мультимодальной области.
Традиционные мультимодальные макеты часто полагаются на сложные модули внешнего зрения, которые не только увеличивают сложность системы, но и ограничивают ее масштабируемость и гибкость. Инновация Liquid заключается в том, что она принимает VQGAN в качестве сегментатора изображения и отказывается от своей зависимости от внешних визуальных компонентов. Кодируя изображение в дискретные визуальные токены, Liquid позволяет модели поделиться списком слов непосредственно с текстовыми токенами, тем самым достигая «нативного» визуального понимания и возможностей генерации. Этот дизайн значительно упрощает структуру модели, улучшая его масштабируемость.
Исследование показало, что жидкость не только значительно снижает затраты на обучение, но и выявляет масштабные правила мультимодальных возможностей и LLM. Исследовательская группа провела эксперименты по LLMs различных размеров (от 0,5b до 32b). Результаты показали, что по мере расширения масштаба моделей производительность и качество генерации его задач генерации следовало схеме масштабирования в соответствии с языковыми задачами. Что еще более захватывающе, так это то, что между визуальным пониманием и генеративными задачами существует двусторонняя облегчающая связь, то есть оба могут достичь совместной оптимизации с помощью общего пространства представления. Это открытие обеспечивает важную теоретическую основу для будущей мультимодальной модели.
Дизайн жидкости полностью воплощает минимализм, в равной степени обрабатывая изображения и текст, приняв единую структуру обработки. В процессе строительства исследовательская группа использовала 30-метровые текстовые данные и 30-метровые данные с изображением текста, чтобы заложить основу для мультимодальной подготовки модели. Окончательные экспериментальные результаты показывают, что жидкость обладает превосходной производительностью в мультимодальном понимании, генерации изображений и простых текстовых задачах, а семантическая последовательность между генерируемыми изображениями и текстом значительно выше, чем другие авторегрессивные модели. Этот результат демонстрирует большой потенциал жидкости в практическом применении.
Предложение Liquid предоставляет новые идеи для архитектурного дизайна общего мультимодального интеллекта, что указывает на то, что искусственный интеллект может привести к более эффективной и гибкой эволюции в будущем мультимодального слияния. Успех этой технологии не только способствует исследованиям в мультимодальной области, но и открывает новые возможности для применения искусственного интеллекта в более практических сценариях.
Бумажная ссылка: https://arxiv.org/pdf/2412.04332