Dengan perkembangan cepat teknologi kecerdasan buatan, pengembang dan lembaga penelitian menghadapi banyak tantangan, termasuk biaya komputasi yang tinggi, masalah latensi dan kurangnya model open source yang benar -benar fleksibel. Masalah -masalah ini tidak hanya membatasi kemajuan teknologi, tetapi juga menyulitkan banyak solusi yang ada untuk dipromosikan dalam aplikasi praktis. Terutama dalam skenario di mana komputasi yang efisien dan latensi rendah diperlukan, model yang ada cenderung mengandalkan infrastruktur cloud yang mahal atau tidak dapat berjalan pada perangkat lokal karena ukurannya. Oleh karena itu, pasar sangat membutuhkan model baru yang dapat beroperasi secara efisien dan fleksibel.
Untuk mengatasi permintaan ini, Reka AI meluncurkan REKA Flash3, model inferensi yang dibangun dari awal dengan 2,1 miliar parameter. Tujuan desain dari model ini adalah untuk mendukung berbagai skenario aplikasi, termasuk percakapan umum, bantuan pengkodean, tindak lanjut instruksi, dan panggilan fungsi. Proses pelatihan REKA Flash3 menggabungkan kumpulan data publik dan kumpulan data sintetis, dan pembelajaran penguatan dilakukan melalui penyetelan instruksi yang cermat dan memperkuat metode Leave One-One (RLOO). Metode pelatihan ini memastikan bahwa model tersebut menyeimbangkan antara kemampuan dan efisiensi, membuatnya menonjol di antara banyak model serupa.
Pada tingkat teknis, Reka Flash3 memiliki beberapa fitur inovatif yang membuatnya luar biasa dalam fleksibilitas dan efisiensi sumber daya. Pertama, model ini mampu menangani panjang konteks hingga 32k token, yang membuatnya mudah untuk menangani dokumen yang lebih lama dan tugas -tugas kompleks tanpa membebani sistem. Kedua, Reka Flash3 memperkenalkan mekanisme "anggaran wajib", melalui tag <salat> spesifik, pengguna dapat membatasi langkah -langkah proses berpikir model, sehingga mempertahankan kinerja yang konsisten tanpa meningkatkan overhead komputasi. Selain itu, model ini ideal untuk penyebaran pada perangkat, dengan ukuran akurasi penuh 39GB (FP16), yang dapat dikompresi lebih lanjut menjadi 11GB dengan kuantisasi 4-bit. Fleksibilitas ini membuat Reka Flash3 lebih cair saat digunakan secara lokal, memberikan keuntungan dibandingkan model yang lebih besar dan intensif sumber daya.
Menilai dari metrik evaluasi dan data kinerja, REKA Flash3 berkinerja baik dalam aplikasi praktis. Misalnya, meskipun mencetak 65,0 dalam tes MMLU-Pro dan dilakukan secara moderat, daya saingnya tidak dapat diremehkan setelah digabungkan dengan sumber pengetahuan tambahan seperti pencarian web. Selain itu, Reka Flash3 juga berkinerja baik dalam kemampuan multibahasa, mencetak 83,2 pada tes komet WMT'23, menunjukkan dukungannya yang masuk akal untuk input non-Inggris, meskipun fokus terutama pada bahasa Inggris. Hasil ini, ditambah dengan jumlah parameter yang efisien relatif terhadap rekan-rekan mereka seperti QWQ-32B, lebih lanjut menyoroti potensi mereka dalam aplikasi praktis.
Singkatnya, Reka Flash3 mewakili solusi AI yang lebih mudah diakses. Melalui keseimbangan yang cerdas antara kinerja dan efisiensi, model ini memberikan opsi yang kuat dan fleksibel untuk tugas obrolan, pengkodean, dan instruksi umum. Desainnya yang ringkas, jendela konteks token 32K yang ditingkatkan dan mekanisme wajib anggaran inovatif menjadikannya pilihan praktis untuk penyebaran perangkat dan aplikasi latensi rendah. Reka Flash3 tidak diragukan lagi memberikan fondasi yang menarik bagi para peneliti dan pengembang yang mencari model yang kompeten dan dapat dikelola.
Untuk mempelajari lebih lanjut tentang Reka Flash3, silakan kunjungi tautan berikut:
Pendahuluan: https://www.reka.ai/news/introducing-reka-flash
Model: https://huggingface.co/rekaai/reka-flash-3