วันนี้ทีมงาน Doubao Big Model ได้เปิดตัวรายงานทางเทคนิคของ Wensheng Picture ซึ่งเปิดเผยรายละเอียดทางเทคนิคของโมเดลการสร้างภาพ Seedream 2.0 เป็นครั้งแรก รายงานนี้ครอบคลุมกระบวนการทั้งหมดของการก่อสร้างข้อมูลกรอบการฝึกอบรมล่วงหน้าและ RLHF หลังการฝึกอบรมซึ่งทำเครื่องหมายการพัฒนาที่สำคัญในด้านวรรณกรรมและกราฟิกชีวประวัติ การเปิดตัว Seedream 2.0 ลดลงอย่างไม่ต้องสงสัย "บล็อกบัสเตอร์" ในอุตสาหกรรมดึงดูดความสนใจอย่างกว้างขวาง
นับตั้งแต่เปิดตัวบนแอพ Doubao และแพลตฟอร์ม Zhimeng ในต้นเดือนธันวาคม 2567 Seedream2.0 ให้บริการผู้ใช้ C-end หลายร้อยล้านคนและได้รับการยกย่องอย่างสูงจากนักออกแบบมืออาชีพ เมื่อเปรียบเทียบกับรุ่นกระแสหลักเช่น IDEOGRAM 2.0 และ MIDJOURNEY V6.1 SeedReam 2.0 ได้รับการปรับปรุงอย่างมีนัยสำคัญในหลาย ๆ ด้าน ไม่เพียง แต่แก้ปัญหาการแสดงข้อความที่ไม่ดี แต่ยังเสริมสร้างความเข้าใจในวัฒนธรรมจีนซึ่งช่วยปรับปรุงความเข้าใจสองภาษาความสวยงามและคำแนะนำในภาษาจีนและภาษาอังกฤษ
ผ่านการทดสอบเกณฑ์มาตรฐานการประเมิน Bench-240 SeedReam2.0 มีความโดดเด่นเป็นพิเศษในความมีเหตุผลเชิงโครงสร้างของเนื้อหาที่เกิดจากคำที่เป็นภาษาอังกฤษและความแม่นยำของการทำความเข้าใจข้อความ ในแง่ของการสร้างและการแสดงข้อความของจีนอัตราความพร้อมใช้งานถึง 78%และอัตราการตอบสนองที่สมบูรณ์แบบสูงถึง 63%สูงกว่ารุ่นอื่น ๆ ในอุตสาหกรรมและแสดงให้เห็นถึงความสามารถที่ทรงพลังในการประมวลผลหลายภาษา
ในแง่ของการใช้งานทางเทคนิคทีม Doubao Big Model ได้สร้างนวัตกรรมมากมาย ในกระบวนการประมวลผลข้อมูลล่วงหน้าทีมได้สร้างกรอบการทำงานด้วย "การรวมความรู้" เป็นแกนกลางและคุณภาพข้อมูลที่สมดุลและความหลากหลายความรู้ผ่านสถาปัตยกรรมข้อมูลสี่มิติ เอ็นจิ้นคำอธิบายประกอบอัจฉริยะได้บรรลุวิวัฒนาการทางปัญญาสามระดับปรับปรุงความเข้าใจและความสามารถในการรับรู้ของแบบจำลองอย่างมีนัยสำคัญในขณะที่การสร้างวิศวกรรมได้ปรับปรุงประสิทธิภาพของการประมวลผลข้อมูลอย่างมาก
ในระหว่างขั้นตอนการฝึกอบรมก่อนทีมมุ่งเน้นไปที่ความเข้าใจสองภาษาและการแสดงข้อความโดยเฉพาะ ผ่านโครงการจัดตำแหน่งสองภาษาพื้นเมืองทีมปรับแต่ง LLM และสร้างชุดข้อมูลเฉพาะที่ประสบความสำเร็จในการทำลายผนังมิติระหว่างภาษาและการมองเห็น ระบบฟิวชั่นการเข้ารหัสแบบสองโมดอลช่วยให้โมเดลคำนึงถึงความหมายของข้อความและร่ายมนตร์ตัวอักษรในขณะที่สถาปัตยกรรม DIT ที่ได้รับการอัพเกรดสามครั้งจะแนะนำเทคโนโลยี QK-Norm และการปรับสเกลลอร์ดซึ่งช่วยเพิ่มเสถียรภาพของการฝึกอบรมและตระหนักถึงการสร้างภาพหลายภาพ
ในระหว่างกระบวนการ RLHF หลังการฝึกอบรมทีมได้พัฒนาระบบการเพิ่มประสิทธิภาพเริ่มต้นจากสามด้าน: ระบบข้อมูลการตั้งค่าหลายมิติโมเดลรางวัลที่แตกต่างกันสามแบบและการเรียนรู้ซ้ำ ๆ เพื่อขับเคลื่อนวิวัฒนาการของแบบจำลองช่วยปรับปรุงประสิทธิภาพของโมเดลได้อย่างมีประสิทธิภาพ ค่าคะแนนประสิทธิภาพของโมเดลรางวัลที่แตกต่างกันเพิ่มขึ้นอย่างต่อเนื่องในการทำซ้ำซึ่งแสดงให้เห็นถึงตำแหน่งผู้นำของ SeedReam2.0 ในด้านการสร้างภาพ
การเปิดตัวรายงานทางเทคนิคนี้ไม่เพียง แต่แสดงให้เห็นถึงความมุ่งมั่นของทีม Doubao Big Model เพื่อส่งเสริมการพัฒนาเทคโนโลยีการสร้างภาพ แต่ยังให้ประสบการณ์ทางเทคนิคที่มีคุณค่าแก่อุตสาหกรรม ในอนาคตทีมจะยังคงสำรวจเทคโนโลยีที่เป็นนวัตกรรมปรับปรุงขอบเขตประสิทธิภาพของแบบจำลองดำเนินการวิจัยเชิงลึกเกี่ยวกับกลไกการเพิ่มประสิทธิภาพการเรียนรู้การเสริมแรงและช่วยในการพัฒนาเทคโนโลยีการสร้างภาพ
หากคุณมีความสนใจในรายละเอียดทางเทคนิคของ SeedReam2.0 คุณสามารถเยี่ยมชมหน้าจอแสดงผลทางเทคนิค: [https://team.doubao.com/tech/seedreamam [https://arxiv.org/pdf/2503.07703 เหมือน (https://arxiv.org/pdf/2503.07703)