Editor Downcodes mengetahui bahwa Zhipu AI telah membuat model grafik Vinsensian terbaru CogView3 menjadi open source dan versi yang ditingkatkan CogView-3Plus-3B, membuat terobosan di bidang grafik Vinsensian. Sebagai model pertama yang menggunakan difusi relai, CogView3 telah membuat terobosan dalam kualitas dan efisiensi gambar dengan metode difusi kaskade yang unik. Kualitas pembangkitannya melebihi SDXL, namun kecepatan inferensinya lebih cepat, bahkan dalam versi yang disederhanakan. Hal ini tidak diragukan lagi memberikan kemungkinan baru untuk menghasilkan gambar berkualitas tinggi dan efisien.
Baru-baru ini, Zhipu AI telah membuka sumber mahakarya terbarunya - CogView3 dan versi yang ditingkatkan CogView-3Plus-3B ke publik, memberikan vitalitas baru ke dalam bidang grafis Vinsensian.
Debut CogView3 tidak diragukan lagi merupakan tonggak penting. Sebagai model pertama yang menerapkan difusi relai di bidang pembuatan teks-ke-gambar, model ini mengadopsi metode difusi kaskade yang unik. Pendekatan inovatif ini pertama-tama menghasilkan gambar beresolusi rendah, dan kemudian menyelesaikan keluaran akhir melalui teknologi resolusi super berbasis relai. Hal ini tidak hanya meningkatkan kualitas gambar yang dihasilkan secara signifikan, namun juga mengurangi biaya pelatihan dan inferensi secara signifikan.

Hal yang paling menarik perhatian adalah kinerja CogView3. Menurut hasil evaluasi manusia, CogView3 melampaui model teks-ke-gambar sumber terbuka SDXL yang canggih saat ini dalam hal kualitas pembuatan, dengan tingkat kemenangan sebesar 77,0%. Yang lebih mengesankan lagi adalah ia mencapai prestasi ini hanya dalam waktu sekitar separuh waktu inferensi SDXL. Jika Anda menggunakan versi CogView3 yang disederhanakan, Anda masih dapat mempertahankan tingkat kinerja yang sebanding sambil hanya menggunakan sepersepuluh waktu inferensi SDXL. Terobosan ini tentu saja membuka kemungkinan-kemungkinan baru untuk menghasilkan gambar yang efisien dan berkualitas tinggi.
Pada saat yang sama, Zhipu AI juga meluncurkan CogView-3Plus-3B, model gambar berdasarkan kerangka DiT (Diffusion Transformers). Meskipun hasil pengujian spesifiknya belum diumumkan, industri menaruh harapan besar terhadap potensinya. CogView-3Plus-3B selanjutnya dioptimalkan berdasarkan CogView3 dan memperkenalkan teknologi canggih seperti penjadwalan kebisingan difusi Zero-SNR dan mekanisme perhatian gambar teks gabungan. Peningkatan ini tidak hanya mengurangi biaya pelatihan dan inferensi, namun juga mempertahankan kemampuan menghasilkan gambar yang kuat.
Perlu disebutkan bahwa CogView-3Plus-3B mendukung berbagai resolusi gambar, mulai dari 512x512 hingga 2048x2048, yang sangat meningkatkan fleksibilitas skenario penerapannya. Baik untuk penggunaan sehari-hari atau kreasi profesional, Anda akan menemukan opsi resolusi yang tepat.
Untuk membantu pengguna memanfaatkan model ini dengan lebih baik, Zhipu AI juga menyediakan saran dan alat praktis. Mereka merekomendasikan pengguna untuk mengoptimalkan kata-kata cepat melalui model bahasa besar (LLM), yang dapat meningkatkan kualitas gambar yang dihasilkan secara signifikan. Pada saat yang sama, Zhipu AI juga menyediakan contoh skrip, yang sangat mengurangi ambang batas penggunaan pengguna.
Alamat proyek: https://github.com/THUDM/CogView3
Sumber terbuka CogView3 dan CogView-3Plus-3B menandai langkah maju yang besar bagi teknologi Wenshengtu. Editor Downcodes berharap dapat menghadirkan lebih banyak kejutan dalam aplikasi masa depan! Saya berharap pengembang dapat secara aktif mencoba dan berkontribusi dalam pengembangannya.