Universitas Hong Kong dan ByteDance bersama-sama merilis LlamaGen, sebuah teknologi inovatif yang menerapkan paradigma prediksi model bahasa skala besar ke bidang pembuatan gambar dan telah mencapai hasil yang luar biasa. Dengan mendesain ulang segmenter gambar dan melatih model dalam skala besar, LlamaGen mencapai kinerja pembuatan gambar terdepan tanpa memerlukan bias induksi sinyal visual, sehingga membawa terobosan baru di bidang pembuatan gambar. Teknologi ini tidak hanya berkinerja baik pada benchmark ImageNet, tetapi juga menunjukkan kemampuan luar biasa dalam kualitas gambar dan penyelarasan teks, serta mencapai akselerasi yang signifikan melalui kerangka layanan vllm. Berbagai model dan alat yang disediakan menyediakan sumber daya berharga bagi pengembang dan peneliti.

Pintu masuk produk: https://top.aibase.com/tool/llamagen
LlamaGen adalah inovasi disruptif pada model pembuatan gambar tradisional, yang menunjukkan bahwa model autoregresif biasa dapat mencapai performa pembuatan gambar terbaik bahkan tanpa adanya bias induksi sinyal visual, selama model tersebut diskalakan dengan tepat. Autoregresi LlamaGen merupakan keluaran dari Transformer dan token berikutnya digunakan sebagai masukan untuk memprediksi token berikutnya. Menggunakan arsitektur LLaMA dan tidak menggunakan model Difusi. Penemuan ini membawa kemungkinan dan inspirasi baru dalam bidang pembuatan gambar, serta memberikan ide dan arahan baru untuk penelitian pembuatan gambar di masa depan.
Fitur LlamaGen meliputi:
Tokenizer gambar: Meluncurkan tokenizer gambar dengan rasio downsampling 16x, kualitas rekonstruksi 0,94, dan pemanfaatan buku kode 97%, yang berkinerja baik pada benchmark ImageNet.

Model pembuatan gambar bersyarat kategori: Serangkaian model pembuatan gambar bersyarat kategori dengan rentang parameter dari 111M hingga 3,1B diluncurkan, mencapai FID 2,18 pada benchmark ImageNet256×256, melampaui model difusi populer.


Model pembuatan gambar bersyarat teks: Model pembuatan gambar bersyarat teks dengan parameter 775M diluncurkan. Setelah pelatihan dua tahap oleh LAION-COCO, model ini dapat menghasilkan gambar estetika berkualitas tinggi dan menunjukkan kualitas visual dan kinerja penyelarasan teks yang sangat baik.

Kerangka layanan vllm: Memverifikasi efektivitas kerangka layanan LLM dalam mengoptimalkan kecepatan inferensi model pembuatan gambar, mencapai akselerasi 326% hingga 414%.

Dalam proyek ini, tim peneliti merilis dua segmenter gambar, model generasi bersyarat tujuh kategori dan dua model generasi bersyarat teks, sekaligus memberikan demonstrasi online dan kerangka layanan throughput tinggi. Pelepasan model dan alat ini memberikan pengembang dan peneliti kekayaan sumber daya dan alat, memungkinkan mereka untuk lebih memahami dan menerapkan teknologi LlamaGen.
Kemunculan LlamaGen tidak hanya mendorong kemajuan teknologi pembangkitan gambar, tetapi juga memberikan arahan dan ide baru untuk penelitian masa depan di bidang kecerdasan buatan. Penerapan dan pengembangannya di lebih banyak bidang patut dinantikan.