Картина Винсента свернута! Скорость генерации изображений CogView3, модели Zhipu с открытым исходным кодом, в 10 раз выше, чем у SDXL!

Автор：Eve Cole Время обновления：2025-03-07 10:00:05

Редактор Downcodes узнал, что Zhipu AI открыла исходный код своей последней модели винсентианских графов CogView3 и ее обновленной версии CogView-3Plus-3B, что произвело фурор в области винсентианских графов. CogView3, первая модель, использующая релейную диффузию, добилась прорыва в качестве изображения и эффективности благодаря своему уникальному методу каскадной диффузии. Качество генерации превосходит SDXL, но скорость вывода выше, даже в оптимизированной версии. Это, несомненно, открывает новые возможности для качественной и эффективной генерации изображений.

Недавно компания Zhipu AI открыла для публики свой последний шедевр — CogView3 и его обновленную версию CogView-3Plus-3B, привнося новую жизнь в область винсентийской графики.

Дебют CogView3, несомненно, является важной вехой. Будучи первой моделью, реализующей релейную диффузию в области генерации текста в изображение, она использует уникальный метод каскадной диффузии. Этот инновационный подход сначала генерирует изображения с низким разрешением, а затем завершает окончательный результат с помощью релейной технологии сверхразрешения. Это не только значительно улучшает качество генерируемых изображений, но и значительно снижает затраты на обучение и вывод.

Больше всего бросается в глаза производительность CogView3. Согласно результатам человеческой оценки, CogView3 превосходит текущую современную модель преобразования текста в изображение с открытым исходным кодом SDXL с точки зрения качества генерации с коэффициентом выигрыша 77,0%. Еще более впечатляющим является то, что он достигает этого результата примерно вдвое быстрее, чем SDXL. Если вы используете оптимизированную версию CogView3, вы по-прежнему сможете поддерживать сопоставимый уровень производительности, занимая при этом лишь одну десятую времени вывода SDXL. Этот прорыв, несомненно, открывает новые возможности для эффективного создания высококачественных изображений.

В то же время Zhipu AI также выпустила CogView-3Plus-3B, модель изображения, основанную на платформе DiT (Diffusion Transformers). Хотя конкретные результаты испытаний еще не объявлены, отрасль полна ожиданий относительно его потенциала. CogView-3Plus-3B дополнительно оптимизирован на основе CogView3 и представляет передовые технологии, такие как планирование диффузионного шума с нулевым SNR и совместный механизм внимания к тексту и изображению. Эти улучшения не только сокращают затраты на обучение и логические выводы, но и поддерживают широкие возможности генерации изображений.

Стоит отметить, что CogView-3Plus-3B поддерживает широкий диапазон разрешений изображения: от 512x512 до 2048x2048, что значительно повышает гибкость сценариев его применения. Будь то ежедневное использование или профессиональное творчество, вы найдете правильный вариант разрешения.

Чтобы помочь пользователям более эффективно использовать эти модели, Zhipu AI также предоставляет практические советы и инструменты. Они рекомендуют пользователям оптимизировать слова-подсказки с помощью больших языковых моделей (LLM), что позволяет значительно улучшить качество генерируемых изображений. В то же время Zhipu AI также предоставляет образцы сценариев, что значительно снижает порог использования пользователем.

Адрес проекта: https://github.com/THUDM/CogView3.

Открытый исходный код CogView3 и CogView-3Plus-3B знаменует собой еще один большой шаг вперед для технологии Wenshengtu. Редактор Downcodes надеется, что в будущих приложениях она принесет еще больше сюрпризов! Я надеюсь, что разработчики смогут активно постараться и внести свой вклад в его развитие.