เมื่อวันที่ 4 มีนาคม 2568 ปักกิ่ง Zhipu Huazhang Technology Co. , Ltd. ได้เปิดตัวรูปแบบกราฟิกชีวประวัติโอเพ่นซอร์สล่าสุดอย่างเป็นทางการ - CogView4 โมเดลนี้ดำเนินการอย่างยอดเยี่ยมในการทดสอบเกณฑ์มาตรฐาน DPG-bench ด้วยคะแนนโดยรวมสูงสุดและกลายเป็นเกณฑ์มาตรฐานทางเทคนิคในรูปแบบวรรณกรรมโอเพนซอร์สและชีวประวัติปัจจุบัน COGVIEW4 ไม่เพียง แต่เป็นไปตามโปรโตคอล Apache 2.0 เท่านั้น แต่ยังเป็นรูปแบบการสร้างภาพแรกที่รองรับโปรโตคอลซึ่งเป็นเหตุการณ์สำคัญใหม่ในเทคโนโลยีการสร้างภาพโอเพ่นซอร์ส
ข้อได้เปรียบหลักของ CogView4 คือการจัดตำแหน่งความหมายที่ซับซ้อนและการเรียนการสอนที่ซับซ้อนตามความสามารถ มันสามารถประมวลผลอินพุตสองภาษาจีนและภาษาอังกฤษได้ทุกความยาวและสร้างภาพของความละเอียดใด ๆ คุณลักษณะนี้ทำให้ CogView4 มีโอกาสในการใช้งานที่กว้างในฟิลด์สร้างสรรค์เช่นการโฆษณาและวิดีโอสั้น ๆ ในทางเทคนิค CogView4 ใช้ GLM-4ENCODER ที่มีทักษะสองภาษา ผ่านการฝึกกราฟิกภาษาจีนและภาษาอังกฤษสองภาษามันตระหนักถึงความสามารถในการป้อนคำที่มีความพร้อมสองภาษาเพื่อปรับปรุงการใช้งานจริงและความยืดหยุ่นของแบบจำลอง

ในแง่ของการสร้างภาพ COGVIEW4 สนับสนุนความยาวของการป้อนคำที่รวดเร็วและสามารถสร้างภาพของความละเอียดใด ๆ ปรับปรุงเสรีภาพในการสร้างสรรค์และประสิทธิภาพการฝึกอบรมอย่างมาก โมเดลใช้การเข้ารหัสตำแหน่งการหมุนสองมิติ (เชือก 2D) เพื่อจำลองข้อมูลตำแหน่งภาพและรองรับการสร้างภาพที่ความละเอียดที่แตกต่างกันผ่านการเข้ารหัสตำแหน่งที่แก้ไข นอกจากนี้ CogView4 ยังใช้รูปแบบการจับคู่การไหลสำหรับการสร้างแบบจำลองการแพร่กระจายการรวมการวางแผนเสียงรบกวนแบบไดนามิกเชิงเส้นพารามิเตอร์เพื่อปรับให้เข้ากับข้อกำหนดอัตราส่วนสัญญาณต่อสัญญาณรบกวนของภาพที่มีความละเอียดที่แตกต่างกัน
ในแง่ของการออกแบบสถาปัตยกรรม CogView4 ยังคงดำเนินต่อไปของสถาปัตยกรรม DIT แบบแบ่งส่วนก่อนหน้านี้และการออกแบบเลเยอร์เลเยอร์แบบปรับตัวอิสระสำหรับข้อความและรูปแบบรูปภาพเพื่อให้ได้การปรับตัวที่มีประสิทธิภาพระหว่างรังสี แบบจำลองนี้ใช้กลยุทธ์การฝึกอบรมแบบหลายขั้นตอนรวมถึงการฝึกอบรมการแก้ปัญหาขั้นพื้นฐานการฝึกอบรมการแก้ปัญหาทั่วไปการปรับแต่งข้อมูลคุณภาพสูงและการฝึกอบรมการจัดตำแหน่งการตั้งค่าของมนุษย์เพื่อให้มั่นใจว่าภาพที่สร้างขึ้นไม่เพียง แต่มีความงามสูง แต่ยังสอดคล้องกับความสวยงามของความงามของมนุษย์
COGVIEW4 ยังแบ่งผ่านขีดจำกัดความยาวโทเค็นแบบคงที่แบบดั้งเดิมช่วยให้ขีด จำกัด สูงสุดของโทเค็นสูงขึ้นและลดความซ้ำซ้อนโทเค็นข้อความในระหว่างการฝึกอบรมอย่างมีนัยสำคัญ เมื่อความยาวเฉลี่ยของคำบรรยายภาพการฝึกอบรมคือ 200-300 โทเค็นเมื่อเทียบกับโซลูชันดั้งเดิมของโทเค็น 512 ที่คงที่ COGVIEW4 จะลดความซ้ำซ้อนโทเค็นโดยประมาณ 50% และบรรลุการปรับปรุงประสิทธิภาพ 5% -30% ในขั้นตอนการฝึกอบรมแบบก้าวหน้า
นอกจากนี้ CogView4 ยังรองรับโปรโตคอล Apache 2.0 และจะค่อยๆเพิ่มการสนับสนุนทางนิเวศวิทยาเช่น ControlNet และ ComfyUI ในอนาคต ชุดเครื่องมือการปรับจูนที่สมบูรณ์จะเปิดตัวเร็ว ๆ นี้เพื่อให้นักพัฒนาได้รับประสบการณ์การใช้งานที่สะดวกยิ่งขึ้น ที่อยู่คลังสินค้าโอเพนซอร์สคือ: https://github.com/thudm/cogview4 และที่อยู่คลังสินค้ารุ่นคือ: https://huggingface.co/thudm/cogview4-6b และ https://modelscope.cn/models/zhoshipuai