Университет Гонконга и ByteDance совместно выпустили LlamaGen, инновационную технологию, которая применяет парадигму прогнозирования крупномасштабных языковых моделей к области генерации изображений и добилась замечательных результатов. Перепроектировав сегментатор изображений и обучив модель в больших масштабах, LlamaGen достигает высочайшей производительности генерации изображений без необходимости смещения индукции визуального сигнала, что приводит к новым прорывам в области генерации изображений. Эта технология не только хорошо работает в тесте ImageNet, но также демонстрирует отличные возможности по качеству изображения и выравниванию текста, а также обеспечивает значительное ускорение благодаря платформе службы vllm. Различные модели и инструменты, которые он предоставляет, предоставляют ценные ресурсы для разработчиков и исследователей.

Вход в продукт: https://top.aibase.com/tool/llamagen.
LlamaGen — это революционная инновация в традиционных моделях генерации изображений, демонстрирующая, что обычные авторегрессионные модели могут достичь высочайшей производительности генерации изображений даже при отсутствии смещения индукции визуального сигнала, если они правильно масштабированы. Авторегрессия LlamaGen — это выходные данные преобразователя, а следующий токен используется в качестве входных данных для прогнозирования следующего токена. Он использует архитектуру LLaMA и не использует модель диффузии. Это открытие открывает новые возможности и вдохновение в области создания изображений, а также дает новые идеи и направления для будущих исследований в области создания изображений.
Возможности LlamaGen включают в себя:
Токенизатор изображений: запущен токенизатор изображений с коэффициентом понижения разрешения 16x, качеством реконструкции 0,94 и использованием кодовой книги на 97 %, который показал хорошие результаты в тесте ImageNet.

Модель генерации изображений с условными категориями: была запущена серия моделей генерации изображений с условными категориями с диапазоном параметров от 111M до 3.1B, в результате чего FID составил 2,18 в тесте ImageNet256×256, превзойдя популярную диффузионную модель.


Модель генерации условного изображения текста: была запущена модель генерации условного изображения текста с 775M параметрами. После двухэтапного обучения LAION-COCO она может генерировать высококачественные эстетические изображения и демонстрировать превосходное визуальное качество и производительность выравнивания текста.

Сервисная платформа vllm: проверена эффективность сервисной платформы LLM в оптимизации скорости вывода модели генерации изображений, достигнуто ускорение от 326 % до 414 %.

В рамках этого проекта исследовательская группа выпустила два сегментатора изображений, модели условной генерации по семи категориям и две модели условной генерации текста, а также предоставила онлайн-демонстрации и высокопроизводительную сервисную структуру. Выпуск этих моделей и инструментов предоставляет разработчикам и исследователям множество ресурсов и инструментов, позволяющих им лучше понимать и применять технологию LlamaGen.
Появление LlamaGen не только способствует развитию технологий генерации изображений, но и открывает новые направления и идеи для будущих исследований в области искусственного интеллекта. Стоит рассчитывать на его применение и развитие в других областях.