في مجال رؤية الكمبيوتر ، كانت كيفية معالجة الصور بكفاءة موضوعًا ساخنًا في البحث. في الآونة الأخيرة ، أصدر فريق البروفيسور لي فايفي والبروفيسور وو جياجون من جامعة ستانفورد نتيجة بحثية جديدة ، يقترحون رمزًا مبتكرًا يسمى "Flowmo". يعمل هذا النهج الجديد على تحسين جودة إعادة بناء الصور بشكل كبير دون الاعتماد على الشبكات العصبية التلافيفية (CNNs) والشبكات العدائية التوليدية (GANS).
عندما نرى صورة للقط ، يمكن للدماغ أن يدرك على الفور أنها قطة. ومع ذلك ، بالنسبة لأجهزة الكمبيوتر ، يبدو أن معالجة الصور أكثر تعقيدًا. تعامل أجهزة الكمبيوتر الصور كأعداد ضخمة ، وغالبًا ما تتطلب ملايين الأرقام لتمثيل كل بكسل. لكي تتعلم نماذج الذكاء الاصطناعى بكفاءة ، يحتاج الباحثون إلى ضغط الصور في نموذج أكثر سهولة معالجته ، وهي عملية تسمى "الرمز المميز". تعتمد الأساليب التقليدية غالبًا على الشبكات التلافيفية المعقدة والتعلم العدائي ، ولكن هذه الطرق لها قيود معينة.

يكمن الابتكار الأساسي لـ Flowmo في استراتيجية التدريب الفريدة على مرحلتين. أولاً ، يتم تعلم النموذج في المرحلة الأولى من خلال التقاط نتائج متعددة لإعادة بناء الصور المحتملة ، مما يضمن أن تنوع الصور المولد وتعايش الجودة. بعد ذلك ، تركز المرحلة الثانية على تحسين نتائج إعادة الإعمار لجعلها أقرب إلى الصورة الأصلية. لا تحسن هذه العملية من دقة إعادة الإعمار فحسب ، بل تعزز أيضًا جودة التصور البصري للصور التي تم إنشاؤها.
تُظهر النتائج التجريبية أن Flowmo يؤدي أفضل من Tokenizer التقليدية على مجموعات بيانات قياسية متعددة. على سبيل المثال ، على مجموعة بيانات ImageNet-1K ، حقق أداء إعادة بناء Flowmo النتائج المثلى عبر إعدادات معدل البتات المتعددة. خاصة بمعدل بت منخفض ، تبلغ قيمة Flowmo لإعادة الإعمار FID 0.95 ، مما يتجاوز بكثير أفضل نموذج في الوقت الحالي.
يمثل هذا البحث الذي أجرته فريق Li Feifei إنجازًا مهمًا في تقنية معالجة الصور ، والذي لا يوفر أفكارًا جديدة فقط لنماذج توليد الصور المستقبلية ، ولكن أيضًا يضع الأساس لتحسين سيناريوهات التطبيق البصري المختلفة. مع التقدم المستمر للتكنولوجيا ، سيصبح توليد الصور والمعالجة أكثر كفاءة وذكاء.