أطلقت جامعة هونغ كونغ وByteDance بشكل مشترك تقنية LlamaGen، وهي تقنية مبتكرة تطبق نموذج التنبؤ لنماذج اللغة واسعة النطاق في مجال توليد الصور وقد حققت نتائج ملحوظة. ومن خلال إعادة تصميم أداة تجزئة الصور وتدريب النموذج على نطاق واسع، يحقق LlamaGen أداءً رائدًا في توليد الصور دون الحاجة إلى تحيز تحريض الإشارة المرئية، مما يحقق اختراقات جديدة في مجال توليد الصور. لا تؤدي هذه التقنية أداءً جيدًا في معيار ImageNet فحسب، بل تُظهر أيضًا قدرات ممتازة في جودة الصورة ومحاذاة النص، وتحقق تسريعًا كبيرًا من خلال إطار خدمة vllm. توفر النماذج والأدوات المختلفة التي توفرها موارد قيمة للمطورين والباحثين.

مدخل المنتج: https://top.aibase.com/tool/llamagen
LlamaGen هو ابتكار مدمر لنماذج توليد الصور التقليدية، مما يدل على أن نماذج الانحدار الذاتي العادية يمكن أن تحقق أداءً رائدًا في توليد الصور حتى في غياب تحيز تحريض الإشارة المرئية، طالما تم تحجيمها بشكل صحيح. يعد الانحدار التلقائي لـ LlamaGen هو مخرجات المحول ويتم استخدام الرمز المميز التالي كمدخل للتنبؤ بالرمز المميز التالي، ويستخدم بنية LLaMA ولا يستخدم نموذج الانتشار. يجلب هذا الاكتشاف إمكانيات وإلهامات جديدة في مجال توليد الصور، ويوفر أفكارًا واتجاهات جديدة لأبحاث توليد الصور المستقبلية.
تشمل ميزات LlamaGen ما يلي:
رمز الصورة: تم إطلاق رمز مميز للصور مع نسبة تصغير 16x، وجودة إعادة بناء تبلغ 0.94، واستخدام كتاب الرموز بنسبة 97%، وهو ما حقق أداءً جيدًا وفقًا لمعيار ImageNet.

نموذج توليد الصور المشروطة بالفئة: تم إطلاق سلسلة من نماذج توليد الصور المشروطة بالفئة ذات معلمات تتراوح من 111 ميجا إلى 3.1 بايت، مما حقق FID قدره 2.18 على معيار ImageNet256×256، متجاوزًا نموذج الانتشار الشائع.


نموذج إنشاء الصور الشرطية النصية: تم إطلاق نموذج إنشاء الصور الشرطية النصية مع 775 مليون معلمة، بعد تدريب على مرحلتين بواسطة LAION-COCO، يمكنه إنشاء صور جمالية عالية الجودة وإظهار جودة بصرية ممتازة وأداء محاذاة النص.

إطار الخدمة vllm: التحقق من فعالية إطار خدمة LLM في تحسين سرعة الاستدلال لنموذج توليد الصور، وتحقيق تسارع من 326% إلى 414%.

في هذا المشروع، أصدر فريق البحث اثنين من قطاعات الصور، ونماذج التوليد الشرطي من سبع فئات، ونموذجين للتوليد الشرطي للنص، مع توفير عروض توضيحية عبر الإنترنت وإطار خدمة عالي الإنتاجية. يوفر إصدار هذه النماذج والأدوات للمطورين والباحثين ثروة من الموارد والأدوات، مما يسمح لهم بفهم تقنية LlamaGen وتطبيقها بشكل أفضل.
إن ظهور LlamaGen لا يعزز تقدم تكنولوجيا توليد الصور فحسب، بل يوفر أيضًا اتجاهات وأفكارًا جديدة للبحث المستقبلي في مجال الذكاء الاصطناعي، ومن الجدير التطلع إلى تطبيقه وتطويره في المزيد من المجالات.