Situs web resmi www.binance.com/zh-cn :Masukkan situs web resmi ☜☜
Aplikasi: ☞☞ Unduh Aplikasi Resmi☜☜
Di bidang visi komputer, cara memproses gambar secara efisien selalu menjadi topik hangat dalam penelitian. Baru -baru ini, tim Profesor Li Feifei dan Profesor Wu Jiajun dari Stanford University merilis hasil penelitian baru, mengusulkan tokenizer gambar inovatif yang disebut "Flowmo". Pendekatan baru ini secara signifikan meningkatkan kualitas rekonstruksi gambar tanpa mengandalkan jaringan saraf konvolusional (CNN) dan jaringan permusuhan generatif (GANS).
Ketika kita melihat foto kucing, otak dapat langsung mengenali bahwa itu adalah kucing. Namun, untuk komputer, pemrosesan gambar tampaknya jauh lebih rumit. Komputer memperlakukan gambar sebagai jumlah yang sangat besar, seringkali membutuhkan jutaan angka untuk mewakili setiap piksel. Agar model AI belajar secara efisien, para peneliti perlu mengompres gambar ke dalam bentuk yang lebih mudah diproses, suatu proses yang disebut "tokenisasi". Metode tradisional sering mengandalkan jaringan konvolusional yang kompleks dan pembelajaran permusuhan, tetapi metode ini memiliki keterbatasan tertentu.

Inovasi inti FlowMo terletak pada strategi pelatihan dua tahap yang unik. Pertama, model ini dipelajari pada tahap pertama dengan menangkap beberapa kemungkinan hasil rekonstruksi gambar, yang memastikan bahwa keragaman gambar yang dihasilkan dan kualitas hidup berdampingan. Selanjutnya, tahap kedua berfokus pada mengoptimalkan hasil rekonstruksi untuk membuatnya lebih dekat ke gambar asli. Proses ini tidak hanya meningkatkan keakuratan rekonstruksi, tetapi juga meningkatkan kualitas persepsi visual dari gambar yang dihasilkan.
Hasil eksperimen menunjukkan bahwa FlowMO berkinerja lebih baik daripada tokenizer gambar tradisional pada beberapa dataset standar. Misalnya, pada dataset ImagEnet-1K, kinerja rekonstruksi FlowMo mencapai hasil optimal di berbagai pengaturan laju bit. Terutama pada laju bit rendah, nilai FID rekonstruksi FlowMo adalah 0,95, jauh melebihi model terbaik saat ini.
Penelitian oleh tim Li Feifei ini menandai terobosan penting dalam teknologi pemrosesan gambar, yang tidak hanya menyediakan ide -ide baru untuk model pembuatan gambar di masa depan, tetapi juga meletakkan dasar untuk optimalisasi berbagai skenario aplikasi visual. Dengan kemajuan teknologi yang berkelanjutan, pembuatan gambar dan pemrosesan akan menjadi lebih efisien dan cerdas.