Model pembuatan gambar telah membuat kemajuan yang signifikan di bidang AI dalam beberapa tahun terakhir, tetapi kecepatan di mana gambar berkualitas tinggi menjadi masalah. Teknologi pencocokan momen induktif open source terbaru Luma AI memberikan solusi terobosan untuk masalah ini. Dengan mengoptimalkan efisiensi tahap inferensi, IMM telah sangat meningkatkan kecepatan pembuatan gambar, yang dapat disebut "turbocharged" di bidang AI.
Saat ini, komunitas AI umumnya menghadapi masalah kemacetan pra-pelatihan generatif. Meskipun jumlah data terus tumbuh, inovasi algoritma relatif tertinggal. Luma AI menunjukkan bahwa inti dari masalah ini bukanlah data yang tidak memadai, tetapi kegagalan algoritma yang ada untuk sepenuhnya mengetuk potensi data. Ini seperti memiliki tambang emas tetapi hanya menggunakan alat asli untuk menambangnya, yang tidak efisien. Untuk memecahkan "plafon algoritma" ini, Luma Ai mengalihkan perhatiannya pada ekspansi komputasi waktu inferensi dan mengusulkan teknologi IMM.
Yang unik tentang IMM adalah mendesain ulang algoritma pra-pelatihan dari perspektif efisiensi inferensi. Model difusi tradisional perlu disesuaikan secara bertahap, dan proses menghasilkan gambar seperti mengeksplorasi dalam labirin. IMM, di sisi lain, memperkenalkan konsep "langkah waktu target", yang memungkinkan model untuk "melompat" lebih fleksibel dalam proses inferensi, sangat mengurangi langkah -langkah yang diperlukan untuk generasi. Desain ini tidak hanya meningkatkan kecepatan, tetapi juga meningkatkan kemampuan ekspresif dari setiap iterasi.
Selain itu, IMM juga mengadopsi teknologi perbedaan rata-rata maksimum, menyediakan navigasi yang akurat untuk proses inferensi dan memastikan bahwa model tersebut dapat secara efisien menghasilkan gambar berkualitas tinggi. Inovasi ini telah memungkinkan IMM untuk melampaui metode tradisional baik dalam kecepatan dan kualitas.
Hasil eksperimen menunjukkan bahwa IMM mencapai skor FID 1,99 dengan hanya 30 kali lebih sedikit langkah pengambilan sampel pada dataset ImageNet256x256, melampaui model difusi dan pencocokan aliran. Pada dataset CIFAR-10, IMM memperoleh skor FID 1,98 hanya dalam 2 langkah, mengatur level terbaik untuk dataset ini. Kecepatan "kilat" ini membuat IMM menonjol di bidang pembuatan gambar.
Selain keunggulan kecepatan, IMM juga berkinerja baik dalam stabilitas pelatihan. Dibandingkan dengan model konsistensi dan model lain yang membutuhkan desain hiperparameter khusus, IMM dapat dilatih secara stabil di bawah berbagai hyperparameters dan arsitektur model, lebih lanjut mengurangi ambang batas untuk digunakan.
Luma AI menekankan bahwa keberhasilan IMM tidak hanya tergantung pada penerapan teknologi pencocokan momen, tetapi juga pada gagasan desainnya yang mengutamakan penalaran. Perspektif inovatif ini memungkinkan mereka untuk menembus keterbatasan paradigma pra-pelatihan yang ada dan membuka arah baru untuk pengembangan model dasar multimodal. Luma Ai percaya bahwa IMM hanyalah permulaan dan akan melepaskan potensi kecerdasan yang lebih kreatif di masa depan.
Repositori Github: https://github.com/lumalabs/imm