Pada peluncuran baru-baru ini, CEO Google Sundar Pichai mengumumkan terobosan besar: Google membuka mockup multimodal terbaru Gemma-3. Dengan biaya rendah dan kinerja tinggi, model ini dengan cepat menjadi fokus industri teknologi. Rilis Gemma-3 menandai kemajuan penting lainnya oleh Google di bidang kecerdasan buatan, terutama dalam pemrosesan multimodal dan pemrosesan konteks yang panjang.
Gemma-3 menyediakan empat opsi untuk skala parameter yang berbeda, yaitu 1 miliar, 4 miliar, 12 miliar dan 27 miliar parameter. Di antara mereka, model dengan parameter 27 miliar hanya membutuhkan satu kartu grafis H100 untuk membuat inferensi yang efisien, dan kebutuhan daya komputasi ini hanya sepersepuluh dari model serupa. Terobosan ini menjadikan Gemma-3 salah satu model kinerja tinggi dengan kebutuhan daya komputasi terendah, sangat mengurangi ambang batas untuk digunakan.
Menurut data uji terbaru, Gemma-3 berkinerja sangat baik dalam berbagai model percakapan, kedua setelah model Deepseek yang terkenal, melampaui berbagai model populer Openai seperti O3-Mini dan Llama3. Arsitektur GEMMA-3 melanjutkan desain transformator dekoder tujuan umum dari dua generasi sebelumnya, tetapi telah melakukan banyak inovasi dan optimasi atas dasar ini. Untuk memecahkan masalah memori yang disebabkan oleh konteks yang panjang, GEMMA-3 mengadopsi arsitektur interleaving lapisan perhatian diri lokal dan global, yang secara signifikan mengurangi penggunaan memori.
Dalam hal kemampuan pemrosesan konteks, panjang konteks yang didukung oleh GEMMA-3 diperluas hingga 128ktoken, memberikan dukungan yang lebih baik untuk memproses teks panjang. Selain itu, GEMMA-3 juga memiliki kemampuan multimodal, dapat memproses teks dan gambar pada saat yang sama, dan mengintegrasikan encoder visi berbasis visionSformer, secara efektif mengurangi biaya komputasi pemrosesan gambar. Fitur-fitur ini membuat Gemma-3 berkinerja baik dalam tugas-tugas kompleks.
Selama proses pelatihan, GEMMA-3 menggunakan lebih banyak anggaran token, terutama volume token 14T dalam model parameter 27 miliar, dan memperkenalkan data multibahasa untuk meningkatkan kemampuan pemrosesan bahasa model. Gemma-3 mendukung 140 bahasa, di mana 35 dapat digunakan secara langsung. Melalui teknologi distilasi pengetahuan canggih, GEMMA-3 mengoptimalkan kinerja model melalui pembelajaran penguatan di kemudian hari dalam periode pelatihan, terutama dalam hal kemampuan membantu, kemampuan penalaran dan kemampuan multibahasa.
Setelah evaluasi, GEMMA-3 berkinerja baik dalam tugas multimodal, dan kemampuan pemrosesan teks panjangnya mengesankan, mencapai akurasi 66%. Selain itu, kinerja Gemma-3 juga merupakan yang teratas dalam penilaian kemampuan dialog, menunjukkan kekuatan komprehensifnya dalam berbagai tugas. Hasil ini menjadikan Gemma-3 salah satu model multimodal yang paling populer.
Alamat sumber terbuka GEMMA-3 adalah: https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f766621268bb6d. Inisiatif open source ini selanjutnya akan mempromosikan pengembangan teknologi kecerdasan buatan dan memberi para peneliti dan pengembang alat dan sumber daya yang kuat.
Poin-poin utama: GEMMA-3 adalah model multimodal open source terbaru Google, dengan parameter mulai dari 1 miliar hingga 27 miliar, dan permintaan daya komputasi berkurang 10 kali. Model ini mengadopsi desain arsitektur yang inovatif untuk memproses konteks panjang dan data multimodal secara efektif, mendukung pemrosesan teks dan gambar secara simultan. Gemma-3 mendukung kemampuan pemrosesan dalam 140 bahasa. Setelah pelatihan dan optimasi, ia berkinerja sangat baik dalam berbagai tugas dan menunjukkan kemampuan komprehensif yang kuat.