4 марта 2025 года Пекин Zhipu Huazhang Technology Co., Ltd. официально выпустила свою последнюю биографическую графическую модель с открытым исходным кодом - Cogview4. Эта модель превосходно выступила в тесте DPG-Bench Benchmark, с высшим общим баллом и стала техническим эталоном в текущей литературной и биографической модели с открытым исходным кодом. Cogview4 не только следует за протоколом Apache 2.0, но также является первой моделью генерации изображений, поддерживающей протокол, отмечая новую веху в технологии генерации изображений с открытым исходным кодом.
Основным преимуществом Cogview4 является его мощное сложное семантическое выравнивание и обучение после возможностей. Он может обрабатывать китайский и английский двуязычный ввод любой длины и генерировать изображения любого разрешения. Эта функция делает Cogview4 иметь широкие перспективы приложений в творческих областях, таких как реклама и короткие видео. Технически, Cogview4 применяет GLM-4Conerer с двуязычными навыками. Благодаря двуязычному графическому обучению китайского и английского языка, оно понимает способность вводить двуязычные быстрые слова, еще больше улучшая практичность и гибкость модели.

С точки зрения генерации изображений, Cogview4 поддерживает любую длину быстрого ввода слов и может генерировать изображения любого разрешения, значительно повышая творческую свободу и эффективность обучения. Модель использует кодирование двухмерного вращательного положения (2D веревка) для модели информации о положении изображения и поддерживает генерацию изображений в разных разрешениях посредством интерполированного кодирования положения. Кроме того, Cogview4 также принимает схему сопоставления потоков для моделирования генерации диффузии, объединяя параметризованную планирование линейного динамического шума, чтобы адаптироваться к требованиям к отношению сигнал / шум изображений с различными разрешениями и обеспечения высокого качества сгенерированных изображений.
С точки зрения архитектурного дизайна, Cogview4 продолжает предыдущее поколение архитектуры DIT в предыдущем поколении и проектирует независимые адаптивные слои слои для текста и модальности изображения для достижения эффективной адаптации между модальностями. Модель принимает многоэтапную стратегию обучения, в том числе базовое обучение в разрешении, обучение общему разрешению, высококачественную точную настройку данных и обучение по выравниванию человеческих предпочтений, гарантируя, что генерируемые изображения не только обладают высоким эстетическим смыслом, но и соответствуют эстетическим предпочтениям человека.
Cogview4 также прорывается через традиционное ограничение длины фиксированного токена, позволяя более высокий верхний предел токена, и значительно снижает избыточность текста во время обучения. Когда средняя длина тренировочной подписи составляет 200-300 токена по сравнению с традиционным решением фиксированных 512 токенов, Cogview4 снижает избыточность токенов примерно на 50% и достигает 5-30% повышения эффективности в модели прогрессирующей стадии обучения, еще больше оптимизирует эффект обучения модели.
Кроме того, Cogview4 поддерживает протокол Apache 2.0 и постепенно добавляет экологическую поддержку, такую как ControlNet и Comfyui в будущем. В ближайшее время будет запущен полный набор инструментов для настройки, предоставляя разработчикам более удобный пользовательский опыт. Адрес с открытым исходным кодом: https://github.com/thudm/cogview4, а адрес модели склада: https://huggingface.co/thudm/cogview4-6b и https://modelscope.cn/models/zhipuai/cogview4-6b.