Pada tanggal 4 Maret 2025, Beijing Zhipu Huazhang Technology Co., Ltd. secara resmi merilis model grafis biografi open source terbaru - Cogview4. Model ini dilakukan dengan sangat baik dalam tes benchmark DPG-Bench, dengan skor keseluruhan teratas, dan menjadi tolok ukur teknis dalam model sastra dan biografi sumber terbuka saat ini. COGVIEW4 tidak hanya mengikuti protokol Apache 2.0, tetapi juga merupakan model pembuatan gambar pertama yang mendukung protokol, menandai tonggak baru dalam teknologi pembuatan gambar open source.
Keuntungan inti dari COGVIEW4 adalah perataan semantik dan instruksi yang kuat dan instruksi berikut kemampuan. Ini dapat memproses input bilingual Cina dan Inggris dengan panjang apa pun dan menghasilkan gambar dari setiap resolusi. Fitur ini membuat CogView4 memiliki prospek aplikasi yang luas di bidang kreatif seperti iklan dan video pendek. Secara teknis, COGVIEW4 mengadopsi GLM-4encoder dengan keterampilan bilingual. Melalui pelatihan grafis Cina dan Inggris bilingual, ia menyadari kemampuan untuk memasukkan kata -kata prompt bilingual, lebih lanjut meningkatkan kepraktisan dan fleksibilitas model.

Dalam hal pembuatan gambar, COGVIEW4 mendukung segala panjang input kata cepat, dan dapat menghasilkan gambar dari setiap resolusi, sangat meningkatkan kebebasan kreatif dan efisiensi pelatihan. Model ini menggunakan pengkodean posisi rotasi dua dimensi (tali 2D) untuk memodelkan informasi posisi gambar, dan mendukung pembuatan gambar pada resolusi yang berbeda melalui pengkodean posisi yang diinterpolasi. Selain itu, COGVIEW4 juga mengadopsi skema pencocokan aliran untuk pemodelan pembuatan difusi, menggabungkan perencanaan kebisingan dinamis linier yang parameter untuk beradaptasi dengan persyaratan rasio sinyal-ke-noise gambar dengan resolusi yang berbeda dan memastikan kualitas tinggi dari gambar yang dihasilkan.
Dalam hal desain arsitektur, CogView4 melanjutkan generasi sebelumnya dari arsitektur saham-param diit dan desain lapisan lapisan adaptif independen untuk teks dan modalitas gambar untuk mencapai adaptasi yang efisien antara modalitas. Model ini mengadopsi strategi pelatihan multi-tahap, termasuk pelatihan resolusi dasar, pelatihan resolusi umum, penyempurnaan data berkualitas tinggi, dan pelatihan penyelarasan preferensi manusia, memastikan bahwa gambar yang dihasilkan tidak hanya memiliki akal estetika yang tinggi, tetapi juga sesuai dengan preferensi estetika manusia.
COGVIEW4 juga menembus batas panjang token tetap tradisional, memungkinkan batas atas token yang lebih tinggi, dan secara signifikan mengurangi redundansi token teks selama pelatihan. Ketika panjang rata-rata keterangan pelatihan adalah 200-300 token, dibandingkan dengan solusi tradisional dari 512 token, COGVIEW4 mengurangi redundansi token sekitar 50% dan mencapai peningkatan efisiensi 5% -30% dalam tahap pelatihan progresif model, lebih lanjut mengoptimalkan efek pelatihan model.
Selain itu, COGVIEW4 mendukung protokol Apache 2.0, dan secara bertahap akan menambahkan dukungan ekologis seperti ControlNet dan Comfyui di masa depan. Satu set lengkap toolkit fine-tuning akan segera diluncurkan, memberikan pengembang pengalaman pengguna yang lebih nyaman. Alamat Warehouse Open Source adalah: https://github.com/thudm/cogview4, dan alamat Model Warehouse adalah: https://huggingface.co/thudm/cogview4-6b dan https://modelscope.cn/models/zhipuai/cog4-modelscope.cn/models/zhipuai/cog.