Startup kecerdasan buatan Luma baru-baru ini merilis model pra-pelatihan model open source yang disebut Inductive Moment Matching (IMM) pada platform X. Teknologi ini telah menarik perhatian luas di bidang AI generatif karena efisiensi dan stabilitasnya, dan dianggap sebagai terobosan besar di bidang ini.
Menurut X pengguna linqi_zhou, IMM adalah paradigma generasi baru yang dapat mencapai pelatihan yang stabil dari awal melalui model tunggal dan tujuan tunggal. Dibandingkan dengan metode tradisional, IMM berkinerja lebih baik dalam efisiensi pengambilan sampel dan kualitas sampel. Dia menyebutkan dalam posting: "IMM mencapai 1,99FID hanya dalam 8 langkah pada dataset ImageNet256 × 256, dan 1,98FID hanya dalam 2 langkah pada CIFAR-10." Prestasi ini tidak hanya menyegarkan standar industri, tetapi juga menunjukkan potensi besar IMM di bidang pembuatan gambar.
Dibandingkan dengan model difusi arus utama saat ini, IMM telah meningkatkan efisiensi pengambilan sampel lebih dari 10 kali sambil mempertahankan kualitas sampel yang lebih tinggi. X Pengguna OP7418 Lebih lanjut menjelaskan prinsip-prinsip teknis IMM: Model difusi tradisional kurang efisien karena keterbatasan interpolasi linier dan konvergensi multi-langkah, sementara IMM secara signifikan meningkatkan fleksibilitas dengan memproses langkah waktu saat ini dan langkah waktu target selama proses inferensi. Desain "penalaran-pertama" ini memungkinkan model untuk menghasilkan gambar berkualitas tinggi dalam langkah yang lebih sedikit, sehingga menembus hambatan algoritmik dari model difusi.
Selain itu, IMM juga lebih baik daripada model konsistensi dalam hal stabilitas pelatihan. OP7418 menunjukkan bahwa model konsistensi rentan terhadap dinamika yang tidak stabil selama pelatihan, sementara IMMS menunjukkan kekokohan yang lebih kuat dan dapat beradaptasi dengan berbagai hyperparameters dan arsitektur model. Fitur ini membuat IMM lebih dapat diandalkan dalam aplikasi praktis.
Inisiatif IMM open source Luma telah menerima pujian tinggi dari masyarakat. X USER FINANCEYF5 berkomentar: "Teknologi IMM LUMA Labs telah meningkatkan efisiensi pembuatan gambar 10 kali dibandingkan dengan metode yang ada, berhasil menerobos hambatan algoritma dari model difusi!" Dia juga melampirkan tautan ke pengenalan teknologi yang relevan, yang memicu lebih banyak diskusi di antara pengguna. Kode dan pos pemeriksaan IMM telah diterbitkan melalui GitHub, dan rincian teknis juga telah diuraikan dalam makalah terkait, sepenuhnya mencerminkan tekad Luma untuk mempromosikan keterbukaan penelitian AI.
Data kinerja IMM lebih lanjut membuktikan posisi terdepannya. Pada dataset ImageNet256 × 256, IMM melampaui model difusi (2.27FID) dan pencocokan aliran (2.15FID) dengan 1.99FID, dan langkah pengambilan sampel dikurangi 30 kali. Pada dataset CIFAR-10, IMM mencapai 1.98FID hanya dalam 2 langkah pengambilan sampel, mengatur catatan terbaik untuk dataset ini. OP7418 juga menyebutkan bahwa IMM memiliki skalabilitas komputasi yang sangat baik. Dengan peningkatan pelatihan dan komputasi inferensi, kinerja terus meningkat, meletakkan dasar untuk aplikasi skala besar di masa depan.
Dipercaya secara luas pada industri bahwa sumber terbuka IMM dapat memicu pergeseran paradigma dalam teknologi pembuatan gambar. Dengan sifatnya yang efisien, berkualitas tinggi dan stabil, IMM tidak hanya cocok untuk pembuatan gambar, tetapi juga mungkin untuk meluas ke bidang video dan multimodal. Tim Luma mengatakan bahwa IMM hanyalah langkah pertama menuju model dasar multimodal, dan mereka berharap dapat membuka lebih banyak kemungkinan kecerdasan kreatif melalui teknologi ini.
Dengan rilis IMM, posisi Luma dalam kompetisi AI global menjadi semakin menonjol. Prospek aplikasi yang meluas dari teknologi ini dan dampaknya yang mengganggu pada model yang ada diharapkan untuk terus memicu diskusi panas dalam beberapa bulan mendatang.