รูปแบบวัฒนธรรมและชีวประวัติล่าสุด COGVIEW4 ที่เปิดตัวโดย Zhipu AI ได้รับการปล่อยตัวอย่างเป็นทางการและทำเครื่องหมายการพัฒนาที่สำคัญอีกครั้งในด้านปัญญาประดิษฐ์ในสาขาการสร้างภาพ COGVIEW4 ไม่เพียง แต่มีมาตราส่วนพารามิเตอร์สูงถึง 600 ล้านเท่านั้น แต่ยังตระหนักถึงการสนับสนุนอย่างเต็มที่สำหรับการป้อนข้อมูลภาษาจีนและข้อความภาษาจีนในการสร้างภาพเป็นครั้งแรก เป็นที่รู้จักกันในชื่อ "รุ่นโอเพ่นซอร์สตัวแรกที่สามารถสร้างอักขระจีนในภาพ" นวัตกรรมนี้เป็นเครื่องมือที่ทรงพลังสำหรับผู้สร้างเนื้อหาจีนและส่งเสริมการพัฒนาเทคโนโลยีการสร้างภาพในบริบทของจีนอย่างมาก
จุดเด่นหลักของ CogView4 คือรองรับการป้อนคำที่รวดเร็วของจีนและภาษาอังกฤษโดยเฉพาะอย่างยิ่งในการจัดการคำแนะนำภาษาจีนที่ซับซ้อน ในฐานะที่เป็นโมเดลชีวประวัติโอเพ่นซอร์สตัวแรกที่สามารถสร้างอักขระจีนในภาพ CogView4 เติมช่องว่างขนาดใหญ่ในฟิลด์โอเพ่นซอร์ส นอกจากนี้โมเดลยังรองรับการสร้างรูปภาพของอัตราส่วนแง่มุมใด ๆ และสามารถประมวลผลคำตอบที่มีความยาวใด ๆ แสดงความยืดหยุ่นและการปรับตัวสูงมากตอบสนองความต้องการของสถานการณ์ที่แตกต่างกัน
ในแง่ของสถาปัตยกรรมทางเทคนิค CogView4 ได้รับการอัพเกรดอย่างสมบูรณ์และตัวเข้ารหัสข้อความได้รับการอัพเกรดเป็น GLM-4 ซึ่งสนับสนุนการป้อนข้อมูลภาษาจีนและภาษาอังกฤษสองภาษาโดยการทำลายข้อ จำกัด ก่อนหน้าของโมเดลโอเพ่นซอร์สที่สนับสนุนภาษาอังกฤษเท่านั้น ด้วยการใช้คู่กราฟิกภาษาจีนและภาษาอังกฤษสองภาษาเพื่อฝึกอบรมคุณภาพการสร้าง CogView4 ในบริบทของจีนได้รับการปรับปรุงอย่างมีนัยสำคัญเพื่อให้มั่นใจถึงความแม่นยำและความคล่องแคล่วเมื่อประมวลผลข้อความภาษาจีน
ในแง่ของการประมวลผลข้อความ CogView4 ละทิ้งการออกแบบที่มีความยาวคงที่แบบดั้งเดิมและใช้รูปแบบความยาวข้อความแบบไดนามิก เมื่อข้อความคำอธิบายโดยเฉลี่ยคือองค์ประกอบคำ 200-300 คำเมื่อเทียบกับโซลูชันดั้งเดิมที่มีองค์ประกอบ 512 คำคงที่ความซ้ำซ้อนจะลดลงประมาณ 50%และประสิทธิภาพการฝึกอบรมดีขึ้น 5%-30% นวัตกรรมนี้ไม่เพียง แต่เพิ่มประสิทธิภาพการใช้ทรัพยากรการคำนวณ แต่ยังช่วยให้แบบจำลองสามารถประมวลผลคำที่มีความยาวที่แตกต่างกันได้อย่างมีประสิทธิภาพมากขึ้นปรับปรุงคุณภาพและความหลากหลายของภาพที่สร้างขึ้น
COGVIEW4 สนับสนุนการสร้างภาพของความละเอียดใด ๆ ด้วยความก้าวหน้าทางเทคโนโลยีหลายอย่าง แบบจำลองได้รับการฝึกฝนด้วยความละเอียดผสมรวมกับการเข้ารหัสตำแหน่งการหมุนสองมิติและการแสดงตำแหน่งที่แก้ไขซึ่งสามารถปรับให้เข้ากับความต้องการของขนาดที่แตกต่างกัน นอกจากนี้ขึ้นอยู่กับรูปแบบการแพร่กระจายการไหลของการไหลและการวางแผนเสียงรบกวนแบบไดนามิกเชิงเส้นพารามิเตอร์ COGVIEW4 จะช่วยเพิ่มคุณภาพและความหลากหลายของภาพที่สร้างขึ้นทำให้ดีขึ้นในสถานการณ์ที่ซับซ้อน
กระบวนการฝึกอบรมของ CogView4 แบ่งออกเป็นหลายขั้นตอนเริ่มต้นจากการฝึกอบรมความละเอียดขั้นพื้นฐานการปรับความละเอียดทั่วไปไปยังการปรับแต่งข้อมูลคุณภาพสูงและในที่สุดก็ปรับเอาท์พุทผ่านการจัดตำแหน่งการตั้งค่าของมนุษย์ กระบวนการนี้ยังคงรักษาสถาปัตยกรรม DIT ของ PARAM ในขณะที่แนะนำการปรับเลเยอร์แบบปรับตัวอิสระสำหรับโหมดที่แตกต่างกันเพื่อให้แน่ใจว่ามีความเสถียรและความสอดคล้องของโมเดลในหลายงาน กระบวนการฝึกอบรมที่ละเอียดอ่อนนี้ช่วยให้ CogView4 ตอบสนองความต้องการของผู้ใช้ได้ดีขึ้นเมื่อสร้างภาพ
ที่อยู่โครงการ: https://github.com/thudm/cogview4