في 4 مارس ، 2025 ، أصدرت شركة Beijing Zhipu Huazhang Technology Co. ، Ltd. رسميًا أحدث نموذج للسيرة الذاتية مفتوحة المصدر - COGVIEW4. كان هذا النموذج أداءً ممتازًا في اختبار مؤشر DPG على مدار المقعد ، مع درجة إجمالية أعلى ، وأصبح معيارًا تقنيًا في نموذج الأدبي والسيرة الذاتية المفتوح المصدر الحالي. لا يتبع COGVIEW4 بروتوكول Apache 2.0 فحسب ، بل هو أيضًا نموذج توليد الصور الأول لدعم البروتوكول ، مما يمثل علامة فارقة جديدة في تقنية توليد الصور مفتوحة المصدر.
الميزة الأساسية لـ COGVIEW4 هي محاذاة وتعليمات الدلالية المعقدة القوية بعد القدرات. يمكن أن يعالج المدخلات الثنائية الصينية والإنجليزية من أي طول وإنشاء صور لأي دقة. هذه الميزة تجعل COGVIEW4 لديها آفاق تطبيقات واسعة في الحقول الإبداعية مثل الإعلان ومقاطع الفيديو القصيرة. من الناحية الفنية ، يعتمد Cogview4 GLM-4encoder مع مهارات ثنائية اللغة. من خلال التدريب على الرسوم البيانية الصينية والإنجليزية ثنائية اللغة ، يدرك القدرة على إدخال الكلمات السريعة ثنائية اللغة ، مما يزيد من تحسين التطبيق العملي للنموذج ومرونته.

فيما يتعلق بتوليد الصور ، يدعم COGVIEW4 أي طول من إدخال الكلمات الفوري ، ويمكنه إنشاء صور لأي دقة ، وتحسين الحرية الإبداعية وكفاءة التدريب بشكل كبير. يستخدم النموذج ترميز الموضع الدوراني ثنائي الأبعاد (حبل ثنائي الأبعاد) لنموذج معلومات موضع الصورة ، ويدعم توليد الصور في قرارات مختلفة من خلال ترميز الموضع المحرف. بالإضافة إلى ذلك ، يعتمد COGVIEW4 أيضًا مخطط مطابقة التدفق لنمذجة توليد الانتشار ، حيث يجمع بين تخطيط الضوضاء الديناميكية الخطية المعلمة للتكيف مع متطلبات نسبة الإشارة إلى الضوضاء مع قرارات مختلفة وضمان جودة عالية من الصور التي تم إنشاؤها.
فيما يتعلق بالتصميم المعماري ، يواصل Cogview4 الجيل السابق من بنية الأسهم في الأسهم وتصميم طبقات Layernorm المستقلة للتكيف لطرائق النص والصور لتحقيق التكيف الفعال بين الطرائق. يتبنى النموذج استراتيجية تدريب متعددة المراحل ، بما في ذلك التدريب الأساسي للقرار ، والتدريب على حل القرار العام ، وصقل البيانات عالية الجودة ، والتدريب على محاذاة التفضيلات البشرية ، مما يضمن أن الصور التي تم إنشاؤها ليس لها معنى جمالي عالي ، ولكنها تتوافق أيضًا مع التفضيلات الجمالية البشرية.
يخترق Cogview4 أيضًا حد طول الرمز المميز الثابت التقليدي ، مما يتيح الحد الأعلى الرمز المميز العالي ، ويقلل بشكل كبير من التكرار الرمزي النصية أثناء التدريب. عندما يكون متوسط طول التسمية التوضيحية التدريبية 200-300 ، مقارنةً بالحل التقليدي للمواد المميزة الثابتة 512 ، فإن COGVIEW4 يقلل من التكرار الرمزي بنحو 50 ٪ ويحقق تحسين الكفاءة بنسبة 5 ٪ -30 ٪ في مرحلة التدريب التقدمية النموذجية ، مما يزيد من تأثير التدريب على النموذج.
بالإضافة إلى ذلك ، يدعم COGVIEW4 بروتوكول APACHE 2.0 ، وسيضيف تدريجياً دعمًا بيئيًا مثل ControlNet و Comfyui في المستقبل. سيتم إطلاق مجموعة كاملة من مجموعات أدوات التثبيت الدقيقة قريبًا ، مما يوفر للمطورين تجربة مستخدم أكثر ملاءمة. عنوان المستودع المفتوح المصدر هو: https://github.com/thudm/cogview4 ، وعنوان المستودع النموذجي هو: https://huggingface.co/thudm/cogview4-6b و https://modelscope.cn/models/zhipuai/cogvoe4-6b.