Научно-исследовательский институт Чжиюань недавно выпустил новое поколение мультимодальной базовой модели Emu2, которая добилась значительных прорывов в возможностях мультимодального контекстного обучения. Благодаря крупномасштабному авторегрессионному генеративному мультимодальному предварительному обучению Emu2 хорошо справляется с задачами мультимодального понимания с несколькими выборками, превосходя основные модели, такие как Flamingo-80B и IDEFICS-80B, и хорошо справляется с множественным пониманием с несколькими выборками. визуальный ответ на вопросы и достижение оптимальной производительности при выполнении задач по созданию изображений. Emu2 содержит два основных приложения: Emu2-Chat и Emu2-Gen, которые ориентированы на понимание изображений и текстовых инструкций и создание изображений/видео соответственно.
Исследовательский институт Чжиюань выпустил новое поколение мультимодальной базовой модели Emu2, которая значительно способствует прорыву в возможностях мультимодального контекстного обучения посредством крупномасштабной авторегрессионной генеративной мультимодальной предварительной подготовки. Emu2 хорошо справляется с задачами мультимодального понимания с несколькими выборками, превосходя основные мультимодальные предварительно обученные большие модели Flamingo-80B и IDEFICS-80B. Emu2 достиг оптимальной производительности в нескольких задачах понимания, визуального ответа на вопросы и создания изображений. Emu2-Chat может точно понимать графические и текстовые инструкции для лучшего восприятия информации, понимания намерений и планирования принятия решений. Emu2-Gen может принимать изображения, текст и чередующиеся последовательности позиций в качестве входных данных для достижения гибкой, управляемой и высококачественной генерации изображений и видео. Emu2 использует более простую структуру моделирования и масштабирует модель до 37B параметров. Для получения более подробной информации, пожалуйста, обратитесь к ссылке на проект, опубликованной Исследовательским институтом Чжиюань.Благодаря своей высокой производительности и лаконичной структуре Emu2 демонстрирует последние достижения в области мультимодального искусственного интеллекта и обеспечивает прочную основу для разработки будущих мультимодальных приложений. Стоит с нетерпением ждать непрерывных инноваций Чжиюаньского научно-исследовательского института.