ภาพ Vincentian ม้วนขึ้น! ความเร็วในการสร้างของ CogView3 ซึ่งเป็นโมเดลการสร้างภาพโอเพ่นซอร์สของ Zhipu นั้นเร็วกว่า SDXL ถึง 10 เท่า!

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-03-07 10:00:05

บรรณาธิการของ Downcodes ได้เรียนรู้ว่า Zhipu AI ได้โอเพ่นซอร์สโมเดลกราฟ Vincentian รุ่นล่าสุด CogView3 และ CogView-3Plus-3B เวอร์ชันอัปเกรด ทำให้เกิดกระแสในกราฟ Vincentian เนื่องจากเป็นรุ่นแรกที่ใช้การแพร่กระจายของรีเลย์ CogView3 ได้สร้างความก้าวหน้าในด้านคุณภาพและประสิทธิภาพของภาพด้วยวิธีการกระจายแบบคาสเคดอันเป็นเอกลักษณ์ คุณภาพการสร้างที่เหนือกว่า SDXL แต่ความเร็วในการอนุมานนั้นเร็วกว่า แม้จะอยู่ในเวอร์ชันที่มีประสิทธิภาพเทียบเท่าก็ตาม สิ่งนี้ทำให้เกิดความเป็นไปได้ใหม่ๆ ในการสร้างภาพคุณภาพสูงและมีประสิทธิภาพอย่างไม่ต้องสงสัย

เมื่อเร็วๆ นี้ Zhipu AI ได้เผยแพร่ผลงานชิ้นเอกล่าสุดอย่าง CogView3 และ CogView-3Plus-3B เวอร์ชันอัปเกรดสู่สาธารณะ โดยเพิ่มพลังใหม่ให้กับวงการกราฟิก Vincentian

การเปิดตัว CogView3 ถือเป็นก้าวสำคัญอย่างไม่ต้องสงสัย เนื่องจากเป็นโมเดลแรกที่ใช้การแพร่กระจายของรีเลย์ในด้านการสร้างข้อความเป็นรูปภาพ จึงใช้วิธีการกระจายแบบเรียงซ้อนที่เป็นเอกลักษณ์ แนวทางที่เป็นนวัตกรรมใหม่นี้จะสร้างภาพที่มีความละเอียดต่ำก่อน จากนั้นจึงสร้างเอาต์พุตสุดท้ายให้เสร็จสิ้นผ่านเทคโนโลยีความละเอียดสูงพิเศษที่ใช้การถ่ายทอด สิ่งนี้ไม่เพียงปรับปรุงคุณภาพของภาพที่สร้างขึ้นอย่างมาก แต่ยังช่วยลดต้นทุนในการฝึกอบรมและการอนุมานอย่างมากอีกด้วย

สิ่งที่สะดุดตาที่สุดคือประสิทธิภาพของ CogView3 จากผลการประเมินโดยมนุษย์ CogView3 เหนือกว่า SDXL โมเดลข้อความเป็นรูปภาพโอเพ่นซอร์สที่ล้ำสมัยในปัจจุบัน ในแง่ของคุณภาพการสร้าง โดยมีอัตราการชนะถึง 77.0% สิ่งที่น่าประทับใจยิ่งกว่านั้นคือสามารถบรรลุความสำเร็จนี้ได้ภายในเวลาประมาณครึ่งหนึ่งของเวลาอนุมานของ SDXL เท่านั้น หากคุณใช้ CogView3 เวอร์ชันปรับปรุง คุณยังคงสามารถรักษาระดับประสิทธิภาพที่เทียบเคียงได้ ในขณะที่ใช้เวลาเพียงหนึ่งในสิบของเวลาในการอนุมานของ SDXL ความก้าวหน้าครั้งนี้เปิดโอกาสใหม่ๆ ให้กับการสร้างภาพที่มีประสิทธิภาพและมีคุณภาพสูงอย่างไม่ต้องสงสัย

ในเวลาเดียวกัน Zhipu AI ยังได้เปิดตัว CogView-3Plus-3B ซึ่งเป็นโมเดลรูปภาพที่ใช้เฟรมเวิร์ก DiT (Diffusion Transformers) แม้ว่าผลการทดสอบเฉพาะเจาะจงยังไม่ได้ประกาศ แต่อุตสาหกรรมก็เต็มไปด้วยความคาดหวังถึงศักยภาพของมัน CogView-3Plus-3B ได้รับการปรับปรุงเพิ่มเติมบนพื้นฐานของ CogView3 และแนะนำเทคโนโลยีขั้นสูง เช่น การกำหนดตารางเวลาสัญญาณรบกวนการแพร่กระจายแบบ Zero-SNR และกลไกความสนใจระหว่างข้อความและรูปภาพ การปรับปรุงเหล่านี้ไม่เพียงแต่ลดต้นทุนการฝึกอบรมและการอนุมานเท่านั้น แต่ยังรักษาความสามารถในการสร้างภาพที่แข็งแกร่งไว้อีกด้วย

เป็นที่น่าสังเกตว่า CogView-3Plus-3B รองรับความละเอียดของภาพที่หลากหลาย ตั้งแต่ 512x512 ถึง 2048x2048 ซึ่งเพิ่มความยืดหยุ่นในสถานการณ์การใช้งานได้อย่างมาก ไม่ว่าจะเป็นการใช้งานประจำวันหรือการสร้างสรรค์โดยมืออาชีพ คุณจะพบตัวเลือกความละเอียดที่เหมาะสม

เพื่อช่วยให้ผู้ใช้ใช้งานโมเดลเหล่านี้ได้ดีขึ้น Zhipu AI ยังให้คำแนะนำและเครื่องมือที่เป็นประโยชน์อีกด้วย พวกเขาแนะนำให้ผู้ใช้เพิ่มประสิทธิภาพคำพร้อมท์ผ่านโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งสามารถปรับปรุงคุณภาพของรูปภาพที่สร้างขึ้นได้อย่างมาก ในเวลาเดียวกัน Zhipu AI ยังมีสคริปต์ตัวอย่าง ซึ่งลดเกณฑ์การใช้งานของผู้ใช้ลงอย่างมาก

ที่อยู่โครงการ: https://github.com/THUDM/CogView3

โอเพ่นซอร์สของ CogView3 และ CogView-3Plus-3B ถือเป็นอีกก้าวสำคัญสำหรับเทคโนโลยี Wenshengtu บรรณาธิการของ Downcodes รอคอยที่จะสร้างความประหลาดใจให้กับแอปพลิเคชันในอนาคต! ฉันหวังว่านักพัฒนาซอฟต์แวร์จะสามารถพยายามและมีส่วนร่วมในการพัฒนาได้