Hari ini, tim model besar Doubao secara resmi merilis laporan teknis Wensheng Picture, yang mengungkapkan rincian teknis model pembuatan gambar Seedream 2.0 untuk pertama kalinya. Laporan ini mencakup seluruh proses konstruksi data, kerangka kerja pra-pelatihan, dan RLHF pasca-pelatihan, menandai terobosan besar di bidang grafik sastra dan biografi. Peluncuran Seedream 2.0 tidak diragukan lagi menjatuhkan "blockbuster" di industri, menarik perhatian luas.
Sejak diluncurkan di aplikasi Doubao dan platform Zhimeng pada awal Desember 2024, Seedream2.0 telah melayani ratusan juta pengguna C-end dan sangat dipuji oleh desainer profesional. Dibandingkan dengan model utama seperti ideogram 2.0 dan midjourney v6.1, Seedream 2.0 telah mencapai peningkatan yang signifikan dalam banyak aspek. Ini tidak hanya memecahkan masalah rendering teks yang buruk, tetapi juga memperkuat pemahaman budaya Tiongkok, yang secara komprehensif meningkatkan pemahaman, estetika dan instruksi bilingual dalam bahasa Cina dan Inggris.
Melalui uji benchmark evaluasi bangku-240, unggas22.0 sangat menonjol dalam rasionalitas struktural konten yang dihasilkan oleh kata-kata cepat bahasa Inggris dan keakuratan pemahaman teks. Dalam hal generasi Cina dan rendering teks, tingkat ketersediaannya mencapai 78%, dan tingkat responsnya yang sempurna setinggi 63%, jauh melebihi model lain di industri dan menunjukkan kemampuannya yang kuat dalam pemrosesan multibahasa.
Dalam hal implementasi teknis, tim Model Besar Doubao telah membuat banyak inovasi. Dalam proses pemrosesan data, tim membangun kerangka kerja dengan "integrasi pengetahuan" sebagai inti, dan kualitas data yang seimbang dan keragaman pengetahuan melalui arsitektur data empat dimensi. Mesin anotasi yang cerdas telah mencapai evolusi kognitif tiga tingkat, secara signifikan meningkatkan kemampuan pemahaman dan pengakuan model, sementara rekonstruksi rekayasa telah sangat meningkatkan efisiensi pemrosesan data.
Selama tahap pra-pelatihan, tim berfokus secara khusus pada pemahaman dwibahasa dan rendering teks. Melalui skema penyelarasan bilingual asli, tim menyempurnakan LLM dan membangun dataset khusus, berhasil memecahkan dinding dimensi antara bahasa dan visi. Sistem fusi pengkodean dual-modal memungkinkan model untuk memperhitungkan semantik teks dan mesin terbang font, sementara arsitektur DIT triple-yang memperkenalkan qk-norm dan skala teknologi tali, yang meningkatkan stabilitas pelatihan dan mewujudkan generasi gambar multi-resolusi.
Selama proses RLHF pasca-pelatihan, tim mengembangkan sistem optimasi, mulai dari tiga aspek: sistem data preferensi multi-dimensi, tiga model hadiah yang berbeda, dan pembelajaran berulang untuk mendorong evolusi model, secara efektif meningkatkan kinerja model. Nilai skor kinerja dari model hadiah yang berbeda telah terus meningkat dalam iterasi, lebih lanjut menunjukkan posisi unggulan.0 di bidang pembuatan gambar.
Rilis laporan teknis ini tidak hanya menunjukkan tekad tim model besar Doubao untuk mempromosikan pengembangan teknologi pembuatan gambar, tetapi juga memberikan industri pengalaman teknis yang berharga. Di masa depan, tim akan terus mengeksplorasi teknologi inovatif, meningkatkan batas kinerja model, melakukan penelitian mendalam tentang mekanisme optimasi pembelajaran penguatan, dan membantu pengembangan teknologi pembuatan gambar yang kuat.
Jika Anda tertarik dengan detail teknis unggas2.0, Anda dapat mengunjungi halaman tampilan teknis: [https://team.doubao.com/tech/seedream Me(https://team.doubao.com/tech/seedream) atau unduh laporan teknis lengkap: Laporan teknis lengkap: )