Model budaya dan biografi open source terbaru Cogview4 yang diluncurkan oleh Zhipu AI secara resmi dirilis, menandai terobosan besar lainnya dalam kecerdasan buatan di bidang pembuatan gambar. COGVIEW4 tidak hanya memiliki skala parameter hingga 600 juta, tetapi juga menyadari dukungan penuh untuk input Cina dan teks Cina untuk menghasilkan gambar untuk pertama kalinya. Ini dikenal sebagai "model open source pertama yang dapat menghasilkan karakter Cina dalam gambar." Inovasi ini menyediakan alat yang kuat untuk pembuat konten Cina dan sangat mempromosikan pengembangan teknologi pembuatan gambar dalam konteks Cina.
Sorotan inti dari COGVIEW4 adalah bahwa ia mendukung input kata cepat Cina dan Inggris, terutama dalam menangani instruksi Cina yang kompleks. Sebagai model biografi open source pertama yang dapat menghasilkan karakter Cina dalam gambar, Cogview4 mengisi celah besar di bidang open source. Selain itu, model ini juga mendukung pembuatan gambar rasio aspek apa pun dan dapat memproses input kata yang cepat dengan panjang apa pun, menunjukkan fleksibilitas dan kemampuan beradaptasi yang sangat tinggi, memenuhi kebutuhan berbagai skenario.
Dalam hal arsitektur teknis, COGVIEW4 telah ditingkatkan sepenuhnya, dan encoder teksnya telah ditingkatkan ke GLM-4, mendukung input bilingual Cina dan Inggris, sepenuhnya melanggar batasan sebelumnya dari model open source yang hanya mendukung bahasa Inggris. Dengan menggunakan pasangan grafis bilingual Cina dan Inggris untuk berlatih, kualitas generasi Cogview4 dalam konteks Cina telah ditingkatkan secara signifikan, memastikan keakuratan dan kelancarannya saat memproses teks Cina.
Dalam hal pemrosesan teks, COGVIEW4 meninggalkan desain panjang tetap tradisional dan mengadopsi skema panjang teks dinamis. Ketika teks deskripsi rata-rata adalah 200-300 elemen kata, dibandingkan dengan solusi tradisional dengan 512 elemen kata tetap, redundansi berkurang sekitar 50%, dan efisiensi pelatihan meningkat sebesar 5%-30%. Inovasi ini tidak hanya mengoptimalkan penggunaan sumber daya komputasi, tetapi juga memungkinkan model untuk memproses kata -kata cepat dengan berbagai panjang lebih efisien, lebih lanjut meningkatkan kualitas dan keragaman gambar yang dihasilkan.
Cogview4 mendukung generasi gambar dari setiap resolusi, berkat beberapa terobosan teknologi. Model ini dilatih dengan resolusi campuran, dikombinasikan dengan pengkodean posisi rotasi dua dimensi dan representasi posisi interpolasi, yang dapat beradaptasi dengan kebutuhan berbagai ukuran. Selain itu, berdasarkan pada model difusi pencocokan aliran dan perencanaan kebisingan dinamis linier yang diparameterisasi, CogView4 lebih lanjut meningkatkan kualitas dan keragaman gambar yang dihasilkan, membuatnya berkinerja lebih baik dalam skenario kompleks.
Proses pelatihan COGVIEW4 dibagi menjadi beberapa tahap, mulai dari pelatihan resolusi dasar, ke adaptasi resolusi umum, hingga penyempurnaan data berkualitas tinggi, dan akhirnya dioptimalkan output melalui penyelarasan preferensi manusia. Proses ini mempertahankan arsitektur saham-param dit, sambil memperkenalkan normalisasi lapisan adaptif independen untuk mode yang berbeda untuk memastikan stabilitas dan konsistensi model dalam berbagai tugas. Proses pelatihan yang disempurnakan ini memungkinkan COGVIEW4 untuk lebih memenuhi kebutuhan pengguna saat menghasilkan gambar.
Alamat Proyek: https://github.com/thudm/cogview4