اليوم ، أصدر فريق Doubao Big Model رسميًا التقرير الفني لـ Wensheng Picture ، والذي كشف عن التفاصيل الفنية لنموذج SeedReam 2.0 Image Generation لأول مرة. يغطي هذا التقرير عملية بناء البيانات بأكملها ، وإطار ما قبل التدريب ، و RLHF بعد التدريب ، مما يمثل اختراقًا كبيرًا في مجال الرسومات الأدبية والسيرة الذاتية. لا شك أن إطلاق SeedReam 2.0 قد أسقط "blockbuster" في هذه الصناعة ، وجذب اهتمامًا واسع النطاق.
منذ إطلاقها على تطبيق Doubao و Zhimeng Platform في أوائل ديسمبر 2024 ، خدم SeedReam2.0 مئات الملايين من مستخدمي C-End وقد تم الإشادة به من قبل المصممين المحترفين. بالمقارنة مع النماذج السائدة مثل Ideogram 2.0 و Midjourney V6.1 ، حقق SeedReam 2.0 تحسينات كبيرة في العديد من الجوانب. إنه لا يحل فقط مشكلة عرض النص السيئ ، ولكنه يعزز أيضًا فهم الثقافة الصينية ، مما يحسن بشكل شامل الفهم ثنائي اللغة ، والجماليات والتعليمات باللغة الصينية والإنجليزية.
من خلال اختبار القياس القياسي لتقييم المقعد 240 ، يعتبر SeedReam2.0 بارزًا بشكل خاص في العقلانية الهيكلية للمحتوى الناتج عن الكلمات السريعة الإنجليزية ودقة فهم النص. فيما يتعلق بالجيل الصيني وتقديم النص ، بلغ معدل توافره 78 ٪ ، وكان معدل استجابةه المثالي يصل إلى 63 ٪ ، وهو ما يتجاوز بكثير نماذج أخرى في الصناعة وإظهار قدراتها القوية في المعالجة المتعددة اللغات.
فيما يتعلق بالتنفيذ الفني ، قام فريق Doubao Big Model بعمل العديد من الابتكارات. في عملية المعالجة المسبقة للبيانات ، قام الفريق ببناء إطار مع "تكامل المعرفة" باعتباره جوهر البيانات الأساسية ومتوازنة وتنوع المعرفة من خلال بنية البيانات ذات الأبعاد ذات الأبعاد. حقق محرك التعليقات التوضيحية الذكية تطورًا إدراكيًا من ثلاثة مستويات ، مما أدى إلى تحسين قدرات فهم النموذج والتعرف عليه بشكل كبير ، في حين أن إعادة بناء الهندسة قد حسنت بشكل كبير من كفاءة معالجة البيانات.
خلال مرحلة ما قبل التدريب ، ركز الفريق على وجه التحديد على الفهم ثنائي اللغة وتقديم النص. من خلال مخطط المحاذاة ثنائي اللغة الأصلي ، قام الفريق بضبط LLM وبناء مجموعة بيانات مخصصة ، وكسر الجدار الأبعاد بنجاح بين اللغة والرؤية. يمكّن نظام دمج الترميز المزدوج النموذج النموذج من مراعاة دلالات النصوص والخطوط الحربية ، في حين أن بنية DIT التي تم تحديثها الثلاثية تقدم تقنيات QK-Norm و Scaling ، مما يحسن استقرار التدريب ويدرك توليد صور متعددة الدقة.
أثناء عملية RLHF بعد التدريب ، طور الفريق نظام تحسين ، بدءًا من ثلاثة جوانب: نظام بيانات التفضيل متعدد الأبعاد ، وثلاثة نماذج مختلفة للمكافآت ، والتعلم المتكرر لدفع تطور النموذج ، مما يؤدي إلى تحسين أداء النموذج بشكل فعال. زادت قيم نقاط الأداء لنماذج المكافآت المختلفة بشكل مطرد في التكرار ، مما يدل على موضع SeedReam2.0 الرائد في مجال توليد الصور.
لا يوضح إصدار هذا التقرير الفني فقط تصميم فريق Doubao Big Model على تعزيز تطوير تكنولوجيا توليد الصور ، ولكن أيضًا يوفر للصناعة خبرة فنية قيمة. في المستقبل ، سيواصل الفريق استكشاف التقنيات المبتكرة ، وتحسين حدود الأداء النموذجية ، وإجراء البحوث المتعمقة حول آليات تحسين التعلم التعزيز ، ويساعد على التطوير القوي لتكنولوجيا توليد الصور.
إذا كنت مهتمًا بالتفاصيل الفنية لـ SeedReam2.0 ، فيمكنك زيارة صفحة العرض الفني: [https://team.doubao.com/tech/seedream/201ishttps://team.doubao.com/tech/seedream) أو تنزيل التقرير الفني الكامل: [https://arxiv.org/pdf/2503.07703 chtttps://arxiv.org/pdf/2503.07703).