Peluncuran model Stable Diffusion 3 menandai kemajuan besar dalam pembuatan teks-ke-gambar. Model ini menggunakan arsitektur DiT yang sama dengan Sora dan secara signifikan meningkatkan kualitas pembuatan gambar melalui serangkaian peningkatan teknis. Ukuran parameternya berkisar antara 800M hingga 8B, menunjukkan kinerja yang kuat dan potensi aplikasi yang fleksibel. Perlu dicatat bahwa tim R&D SD3 mengintegrasikan keahlian anggota inti R&D Sora dan asisten profesor NYU, dan mengadopsi arsitektur MMDiT yang lebih unggul dari UViT dan DiT, serta varian formula Rectified Flow (RF) yang inovatif, yaitu Ini memberikan dasar yang kuat untuk peningkatan kinerja model.
Model Stable Diffusion 3 dirilis, menggunakan arsitektur DiT yang sama dengan Sora, dengan peningkatan kualitas yang signifikan. Penulis menyatakan bahwa Stable Diffusion 3 mengungguli sistem pembuatan teks-ke-gambar lainnya, dengan ukuran parameter berkisar antara 800M hingga 8B. Arsitektur SD3 didasarkan pada kolaborasi antara anggota inti R&D Sora dan asisten profesor di Universitas New York, menggunakan arsitektur MMDiT yang lebih unggul dari UViT dan DiT. Stable Diffusion 3 mengadopsi formula Rectified Flow (RF), dan performa varian RF yang ditimbang ulang yang diusulkan oleh penulis terus meningkat. Model ini diperluas dan ditingkatkan menggunakan encoder teks fleksibel, dan kinerjanya dibandingkan dengan model lainnya.
Peluncuran Stable Diffusion 3 tidak hanya mencerminkan pesatnya perkembangan teknologi pembuatan teks-ke-gambar, namun juga menunjukkan bahwa semakin banyak model canggih yang akan bermunculan di bidang pembuatan gambar AI di masa depan. Arsitektur dan algoritmanya yang ditingkatkan, serta perbandingan kinerja dengan model lain, memberikan referensi dan referensi berharga bagi para peneliti dan pengembang. Kami berharap Stable Diffusion 3 dapat berperan dalam lebih banyak skenario aplikasi di masa depan.