تم إصدار أحدث نموذج ثقافي وسيرة ذاتية مفتوحة المصدر COGVIEW4 الذي تم إطلاقه بواسطة Zhipu AI رسميًا ، مما يمثل اختراقًا كبيرًا آخر في الذكاء الاصطناعي في مجال توليد الصور. ليس لدى COGVIEW4 مقياس معلمة يصل إلى 600 مليون فحسب ، بل يدرك أيضًا الدعم الكامل للمدخلات الصينية والنص الصيني لتوليد الصور لأول مرة. يُعرف باسم "أول نموذج مفتوح المصدر يمكنه إنشاء أحرف صينية في الصورة." يوفر هذا الابتكار أدوات قوية لمبدعي المحتوى الصينيين ويعزز بشكل كبير تطوير تكنولوجيا توليد الصور في السياق الصيني.
إن تسليط الضوء الأساسي لـ COGVIEW4 هو أنه يدعم إدخال الكلمات الصينية والإنجليزية ، وخاصة في التعامل مع التعليمات الصينية المعقدة. كأول نموذج سيرة ذات مصدر مفتوح يمكنه إنشاء أحرف صينية في الصور ، يملأ Cogview4 فجوة كبيرة في حقل المصدر المفتوح. بالإضافة إلى ذلك ، يدعم النموذج أيضًا توليد صور لأي نسبة عرض إلى الارتفاع ويمكنه معالجة إدخال الكلمات المطالبة بأي طول ، مما يدل على مرونة عالية للغاية وقدرة على التكيف ، وتلبية احتياجات السيناريوهات المختلفة.
فيما يتعلق بالهندسة المعمارية التقنية ، تمت ترقية COGVIEW4 بالكامل ، وتم ترقية مشفرات النصية إلى GLM-4 ، مما يدعم المدخلات الثنائية الصينية والإنجليزية ، مما كسر تمامًا القيد السابق لنموذج المصدر المفتوح الذي يدعم اللغة الإنجليزية فقط. باستخدام أزواج الرسوم البيانية الصينية والإنجليزية للتدريب ، تم تحسين جودة توليد COGVIEW4 في السياق الصيني بشكل كبير ، مما يضمن دقتها وطلاقة عند معالجة النص الصيني.
فيما يتعلق بمعالجة النص ، يتخلى COGVIEW4 عن التصميم التقليدي للطول الثابت ويعتمد مخططًا ديناميكيًا طول النص. عندما يكون نص الوصف المتوسط عناصر 200-300 كلمة ، مقارنة مع الحل التقليدي مع عناصر الكلمات الثابتة 512 ، يتم تقليل التكرار بحوالي 50 ٪ ، ويتم تحسين كفاءة التدريب بنسبة 5 ٪ -30 ٪. هذا الابتكار لا يحسن استخدام موارد الحوسبة فحسب ، بل يسمح أيضًا للنموذج بمعالجة الكلمات الفريدة ذات الأطوال المختلفة بشكل أكثر كفاءة ، مما يؤدي إلى تحسين جودة وتنوع الصور التي تم إنشاؤها.
يدعم Cogview4 توليد صور لأي قرار ، وذلك بفضل العديد من الاختراقات التكنولوجية. تم تدريب النموذج بدقة مختلطة ، جنبًا إلى جنب مع ترميز الموضع الدوراني ثنائي الأبعاد وتمثيل الموضع المحرف ، والذي يمكن أن يتكيف مع احتياجات الأحجام المختلفة. بالإضافة إلى ذلك ، استنادًا إلى نموذج انتشار مطابقة التدفق والتخطيط للضوضاء الديناميكية الخطي المعلمة ، يعمل COGVIEW4 على تحسين جودة وتنوع الصور التي تم إنشاؤها ، مما يجعلها أفضل في السيناريوهات المعقدة.
تنقسم عملية تدريب COGVIEW4 إلى مراحل متعددة ، بدءًا من التدريب الأساسي للقرار ، إلى تكييف الدقة العامة ، إلى ضبط البيانات عالية الجودة ، وأخيراً مُحسّن من خلال محاذاة التفضيل البشري. تحتفظ هذه العملية بنية DIT DIT ، مع تقديم تطبيع طبقة متكيف مستقل لأوضاع مختلفة لضمان استقرار النموذج واتساقه في مهام متعددة. تتيح عملية التدريب المكررة هذه COGVIEW4 تلبية احتياجات المستخدم بشكل أفضل عند إنشاء الصور.
عنوان المشروع: https://github.com/thudm/cogview4