Pada 24 Februari 2024, terobosan penting dibuat di bidang kecerdasan buatan. Model inferensi skala menengah Tiny-R1-32B-preview secara bersama-sama dikembangkan oleh tim otak cerdas 360 dan Universitas Peking secara resmi dirilis. Dengan hanya volume parameter 5%, model inovatif ini berhasil mendekati kinerja kesehatan penuh Deepseek-R1-671B, membuka kemungkinan baru untuk bidang penalaran yang efisien.
Dalam pengujian kinerja, preview kecil-R1-32B menunjukkan kinerja yang mengesankan. Terutama di bidang matematika, model ini mencapai skor yang sangat baik dari 78,1 dalam ulasan AIME2024, yang hanya berjarak 1,7 poin dari skor 79,8 dari model R1 asli, dan juga secara signifikan di depan skor 70,0 dari Deepseek-R1-Distill-Llama-70B. Di bidang pemrograman dan sains, model ini juga berkinerja baik, mencapai 61,6 dan 65,0 poin dalam tes LiveCodebench dan GPQA-Diamond, masing-masing, melampaui model 70B open source terbaik saat ini. Rangkaian pencapaian ini tidak hanya membuktikan kinerja yang sangat baik dari preview kecil-R1-32B, tetapi juga mencapai peningkatan efisiensi yang signifikan dengan secara signifikan mengurangi biaya inferensi.

Di balik hasil terobosan ini adalah strategi "pemisah dan konvergen-integrasi" yang inovatif dari tim peneliti. Strategi ini pertama-tama menghasilkan data lapangan besar berdasarkan Deepseek-R1, dan melatih model profesional di tiga bidang vertikal matematika, pemrograman, dan sains. Selanjutnya, tim peneliti menggunakan alat mergekit tim ARCEE untuk integrasi cerdas, berhasil menerobos batas kinerja model tunggal dan mencapai optimalisasi yang seimbang dari multi-tugas. Jalur teknis yang inovatif ini tidak hanya secara signifikan meningkatkan kinerja keseluruhan model, tetapi juga memberikan ide dan arahan baru untuk pengembangan model inferensi di masa depan.
Tim Otak Cerdas 360 dan tim R&D bersama Universitas Peking sangat menekankan bahwa keberhasilan preview kecil-R1-32B tidak dapat dipisahkan dari dukungan kuat dari komunitas open source. Model ini bermanfaat sepenuhnya dari teknologi distilasi Deepseek-R1, pelatihan tambahan Deepseek-R1-Distill-32B dan teknologi fusi model canggih. Akumulasi pencapaian teknis ini telah meletakkan dasar yang kuat untuk pengembangan model.
Untuk mempromosikan inklusif teknologi, tim R&D berjanji untuk mengungkapkan gudang model lengkap, termasuk laporan teknis terperinci, kode pelatihan dan beberapa set data. Saat ini, Model Warehouse telah secara resmi diluncurkan pada platform Hugging Face, dan alamat aksesnya adalah https://huggingface.co/qihoo360/tinyr1-32b-peview. Inisiatif terbuka ini akan memberikan sumber daya yang berharga bagi komunitas riset kecerdasan buatan dan mempromosikan pengembangan lebih lanjut dari teknologi terkait.