أصدرت شركة LUMA بدء تشغيل الذكاء الاصطناعي مؤخرًا تقنية تدريبية مصدرية مفتوحة المصدر تسمى مطابقة اللحظة الاستقرائية (IMM) على منصة X. اجتذبت هذه التكنولوجيا اهتمامًا واسع النطاق في مجال الذكاء الاصطناعى التوليدي لكفاءتها واستقرارها ، وتعتبر بمثابة اختراق كبير في هذا المجال.
وفقًا لمستخدم X LINQI_ZHOU ، فإن IMM هو نموذج جيل جديد يمكنه تحقيق تدريب مستقر من الصفر من خلال نماذج واحدة وأهداف واحدة. بالمقارنة مع الطرق التقليدية ، فإن MEMS أداء أفضل في كفاءة أخذ العينات وجودة العينة. وذكر في المنشور: "حقق IMM 1.99fid في 8 خطوات فقط على مجموعة بيانات ImageNet256 × 256 ، و 1.98fid في خطوتين فقط على CIFAR-10." هذا الإنجاز لم ينعش فقط معيار الصناعة ، ولكنه أظهر أيضًا الإمكانات الضخمة لـ IMM في مجال توليد الصور.
بالمقارنة مع نموذج الانتشار الحالي الحالي ، زادت IMM من كفاءة أخذ العينات بأكثر من 10 مرات مع الحفاظ على جودة عينة أعلى. يوضح X User OP7418 المبادئ الفنية لنماذج الانتشار التقليدية أقل كفاءة بسبب قيود الاستيفاء الخطي والتقارب متعدد الخطوات ، في حين أن IMM يحسن بشكل كبير المرونة عن طريق معالجة الخطوة الزمنية الحالية في وقت واحد والخطوة الزمنية المستهدفة أثناء عملية الاستدلال. يسمح تصميم "المنطق الأول" للنموذج بإنشاء صور عالية الجودة في خطوات أقل ، وبالتالي اختراق عنق الزجاجة الخوارزمي لنموذج الانتشار.
بالإضافة إلى ذلك ، يعد IMM أيضًا أفضل من نماذج الاتساق من حيث استقرار التدريب. يشير OP7418 إلى أن نماذج الاتساق عرضة للديناميات غير المستقرة أثناء التدريب ، في حين أن MEMS تظهر متانة أقوى ويمكن أن تتكيف مع مجموعة متنوعة من أجهزة البنية الفخمة والبنية النموذجية. هذه الميزة تجعل IMM أكثر موثوقية في التطبيقات العملية.
تلقت مبادرة LUMA Open Source IMM مدحًا كبيرًا من المجتمع. علق X Financeyf5: "لقد حسنت تقنية LUMA Labs IMM كفاءة توليد الصور بمقدار 10 مرات مقارنة بالطرق الحالية ، حيث نجحت في اختراق عنق الزجاجة الخوارزمية لنموذج الانتشار!" قام أيضًا بربط رابط بإدخال التكنولوجيا ذات الصلة ، مما أدى إلى المزيد من المناقشات بين المستخدمين. تم نشر رمز IMM ونقاط التفتيش من خلال GitHub ، كما تم وضع التفاصيل الفنية في الأوراق ذات الصلة ، مما يعكس تمامًا تصميم Luma على تعزيز انفتاح أبحاث الذكاء الاصطناعي.
تثبت بيانات أداء IMM موقعها الرئيسي. على مجموعة بيانات ImageNet256 × 256 ، تجاوزت IMM نموذج الانتشار (2.27fid) ومطابقة التدفق (2.15fid) مع 1.99fid ، وتم تخفيض خطوة أخذ العينات بمقدار 30 مرة. على مجموعة بيانات CIFAR-10 ، حققت IMM 1.98FID في خطوتين فقط من أخذ العينات ، وتحديد أفضل سجل لمجموعة البيانات هذه. ذكر OP7418 أيضا أن IMM لديها قابلية الحوسبة ممتازة. مع الزيادة في التدريب والحوسبة الاستدلال ، يستمر الأداء في التحسن ، ووضع الأساس للتطبيقات واسعة النطاق في المستقبل.
يُعتقد على نطاق واسع في الصناعة أن المصدر المفتوح لـ MEMS قد يؤدي إلى تحول نموذج في تكنولوجيا توليد الصور. من خلال خصائصها الفعالة والعالية الجودة والمستقرة ، فإن IMM ليست مناسبة فقط لتوليد الصور ، ولكن أيضًا ممكن تمتد إلى حقول الفيديو والمتعددة الوسائط. قال فريق Luma إن IMM هي الخطوة الأولى نحو نموذج أساسي متعدد الوسائط ، ويأملون في فتح المزيد من إمكانيات الذكاء الإبداعي من خلال هذه التكنولوجيا.
مع إصدار IMM ، أصبح موقف Luma في مسابقة AI العالمية بارزًا بشكل متزايد. من المتوقع أن تستمر آفاق التطبيق الواسعة لهذه التكنولوجيا وتأثيرها التخريبي على النماذج الحالية في إثارة مناقشات ساخنة في الأشهر المقبلة.