تقارير محرر Downcodes: قام فريق InstantX، جنبًا إلى جنب مع فرق البحث من جامعة نانجينغ للعلوم والتكنولوجيا وجامعة Beihang وجامعة بكين، بتطوير نموذج نقل نمط جديد يسمى CSGO. ويهدف هذا النموذج إلى اختراق عنق الزجاجة في تكنولوجيا توليد الصور، وخاصة لتحقيق تحسينات كبيرة في تكامل المحتوى والأسلوب. يدعم نموذج CSGO ثلاثة أوضاع نقل نمطية، تغطي مجموعة متنوعة من سيناريوهات التطبيق مثل الصور والصور، والصور والنصوص، وصور تحرير النصوص، مما يوضح وظائفها ومرونتها القوية. دعونا نلقي نظرة فاحصة على نموذج الذكاء الاصطناعي المثير للإعجاب هذا.
في الآونة الأخيرة، قام فريق InstantX، جنبًا إلى جنب مع فرق البحث من جامعة نانجينغ للعلوم والتكنولوجيا وجامعة بيهانغ وجامعة بكين، بتطوير نموذج نقل نمط جديد يسمى CSGO، بهدف تحسين تكنولوجيا توليد الصور، خاصة في الجمع بين المحتوى والأسلوب.

يدعم CSGO بشكل أساسي ثلاثة أوضاع لترحيل النمط، كما يلي:
1. صور المحتوى + الصور المرجعية للنمط لتجميع صور النمط للمحتوى. على سبيل المثال، في الحالة التالية، إذا قمت بإعطاء الصورة الأصلية التي تحتاج إلى تغيير في النمط، مثل "الدب، المنزل"، ثم قدمت الصورة المرجعية للنمط، فيمكنك تغيير نمط الصورة الأصلية إلى مرجع صورة النمط.

2. يطالب نمط الصور المرجعية + النص بتجميع صور النمط مع محتوى النص. على سبيل المثال، في الحالة التالية، إذا تم تقديم صورة نمط مرجعي وتم تقديم مطالبة نصية، مثل "قطة، كلب، رجل، باندا"، فيمكن إنشاء صورة نمط المحتوى المقابلة.

3) تحرير الكائن المحدد في الصورة من خلال النص.

يكمن جوهر نموذج CSGO في عملية بناء البيانات الفريدة الخاصة به. صمم فريق البحث بعناية خط أنابيب لتوليد البيانات والتنظيف التلقائي لبناء مجموعة بيانات نقل واسعة النطاق تسمى IMAGStyle. تحتوي مجموعة البيانات هذه على 210.000 صورة ثلاثية وأصبحت مصدرًا مهمًا للبحث الأكاديمي واستكشاف تكنولوجيا توليد الصور.
يعد مفهوم التصميم لهذا النموذج جديدًا للغاية. يمكن لـ CSGO التمييز بوضوح بين ميزات المحتوى والنمط أثناء عملية إنشاء الصورة. ويقول الباحثون إن ميزة هذا النموذج هي طريقة التدريب الشاملة، مما يعني عدم الحاجة إلى ضبط دقيق أثناء مرحلة الاستدلال.
في الوقت نفسه، هناك ميزة أخرى في نموذج CSGO وهي أنه يحتفظ بقدرة إنشاء نموذج تحويل النص إلى صورة الأصلي دون تدريب UNet. من خلال هذه الابتكارات، تحقق CSGO نقل الأنماط المعتمد على الصور، وتوليف الأنماط المعتمد على النص، وتوليف الأنماط المعتمد على تحرير النص.
فيما يتعلق بالنتائج التجريبية، كان أداء CSGO جيدًا جدًا. قدم الباحثون سلسلة من بيانات المقارنة الكمية والمرئية، وأجروا مقارنة شاملة مع أحدث الأساليب الموجودة، وأظهروا مزايا CSGO في قدرات التحكم في الأسلوب.
تسليط الضوء على:
نجح نموذج CSGO في إنشاء مجموعة بيانات IMAGStyle التي تحتوي على 210,000 صورة ثلاثية من خلال خط أنابيب مبتكر لبناء البيانات.
يحقق النموذج فصلًا واضحًا بين المحتوى والأسلوب ويدعم طرق الإنشاء المتعددة، بما في ذلك نقل الأنماط المستند إلى الصورة والنص.
تظهر النتائج التجريبية أن CSGO يتفوق على التقنيات الحالية من حيث قدرات التحكم في الأسلوب، مما يدل على مستوى جديد من توليد الصور.
يمثل ظهور نموذج CSGO طفرة جديدة في تكنولوجيا توليد الصور. يوفر أدائها المتميز في نقل الأسلوب وأساليب بناء البيانات المبتكرة اتجاهات وإلهامًا جديدة لأبحاث توليد الصور المستقبلية. يأمل محرر Downcodes أن يتم تطبيق نموذج CSGO في المزيد من المجالات وأن يقدم لنا تجربة بصرية أكثر إثارة!