علم محرر Downcodes أن Zhipu AI قامت بفتح المصدر لأحدث نموذج للرسوم البيانية Vincentian CogView3 ونسختها المطورة CogView-3Plus-3B، مما أحدث موجات في مجال الرسوم البيانية Vincentian. باعتباره النموذج الأول الذي يستخدم نشر التتابع، حقق CogView3 اختراقات في جودة الصورة وكفاءتها من خلال طريقة النشر المتتالية الفريدة الخاصة به. تتجاوز جودة توليده SDXL، ولكن سرعة الاستدلال الخاصة به أسرع، حتى في الإصدار المبسط. وهذا يوفر بلا شك إمكانيات جديدة لتوليد صور عالية الجودة وفعالة.
في الآونة الأخيرة، قامت شركة Zhipu AI بفتح المصدر لأحدث تحفة فنية لها - CogView3 ونسختها المطورة CogView-3Plus-3B للجمهور، مما يضخ حيوية جديدة في مجال رسومات Vincentian.
يعد الظهور الأول لـ CogView3 بلا شك علامة فارقة مهمة. باعتباره النموذج الأول الذي ينفذ نشر التتابع في مجال إنشاء النص إلى الصورة، فهو يعتمد طريقة نشر متتالي فريدة من نوعها. يقوم هذا النهج المبتكر أولاً بإنشاء صور منخفضة الدقة، ثم يكمل الإخراج النهائي من خلال تقنية فائقة الدقة تعتمد على الترحيل. وهذا لا يؤدي إلى تحسين جودة الصور التي تم إنشاؤها بشكل كبير فحسب، بل يقلل أيضًا بشكل كبير من تكلفة التدريب والاستدلال.

الشيء الأكثر لفتًا للانتباه هو أداء CogView3. وفقًا لنتائج التقييم البشري، يتفوق CogView3 على النموذج الحالي المتطور لتحويل النص إلى صورة SDXL من حيث جودة التوليد، بمعدل فوز قدره 77.0%. والأكثر إثارة للإعجاب هو أنها تحقق هذا العمل الفذ في حوالي نصف وقت الاستدلال الذي يستغرقه SDXL. إذا كنت تستخدم الإصدار المبسط من CogView3، فلا يزال بإمكانك الحفاظ على مستوى أداء قابل للمقارنة بينما يستغرق فقط عُشر وقت الاستدلال الخاص بـ SDXL. مما لا شك فيه أن هذا الاختراق يفتح إمكانيات جديدة لتوليد صور فعالة وعالية الجودة.
في الوقت نفسه، أطلقت Zhipu AI أيضًا CogView-3Plus-3B، وهو نموذج صور يعتمد على إطار عمل DiT (Diffusion Transformers). على الرغم من أن نتائج الاختبار المحددة لم يتم الإعلان عنها بعد، إلا أن الصناعة مليئة بالتوقعات بشأن إمكاناتها. تم تحسين CogView-3Plus-3B بشكل أكبر على أساس CogView3 ويقدم تقنيات متقدمة مثل جدولة نشر ضوضاء Zero-SNR وآلية الانتباه المشتركة للصور النصية. لا تؤدي هذه التحسينات إلى تقليل تكاليف التدريب والاستدلال فحسب، بل تحافظ أيضًا على إمكانات توليد الصور القوية.
ومن الجدير بالذكر أن CogView-3Plus-3B يدعم نطاقًا واسعًا من دقة الصور، بدءًا من 512x512 إلى 2048x2048، مما يزيد بشكل كبير من مرونة سيناريوهات التطبيق الخاصة به. سواء أكان الأمر يتعلق بالاستخدام اليومي أو الإنشاء الاحترافي، فستجد خيار الدقة المناسب.
ولمساعدة المستخدمين على الاستفادة بشكل أفضل من هذه النماذج، توفر Zhipu AI أيضًا اقتراحات وأدوات عملية. ويوصون المستخدمين بتحسين الكلمات السريعة من خلال نماذج اللغة الكبيرة (LLM)، والتي يمكن أن تحسن بشكل كبير جودة الصور التي يتم إنشاؤها. في الوقت نفسه، يوفر Zhipu AI أيضًا نماذج للنصوص البرمجية، مما يقلل بشكل كبير من عتبة الاستخدام للمستخدم.
عنوان المشروع: https://github.com/THUDM/CogView3
يمثل المصدر المفتوح لـ CogView3 وCogView-3Plus-3B خطوة كبيرة أخرى للأمام لتقنية Wenshengtu، ويتطلع محرر Downcodes إلى جلب المزيد من المفاجآت في التطبيقات المستقبلية! آمل أن يتمكن المطورون من محاولة المساهمة بنشاط في تطويره.