Bom Raja! AI China menambahkan "kartu truf" lainnya! Model inferensi multimodal Kunlun Wanwei Skywork R1V mengejutkan dan open source! - Artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-05-23 01:25:02

2025 Binance Direct

Kunlun Wanwei secara resmi mengumumkan hari ini bahwa Model Inferensi Multimodal Skywork R1V yang mereka buat telah secara resmi open source! Ini bukan hanya model open source inferensi multimodal pertama China di industri ini, tetapi juga menandai langkah tonggak untuk kekuatan AI China di bidang pemahaman dan penalaran multimodal! Mulai sekarang, bobot model dan laporan teknis akan sepenuhnya terbuka untuk dunia luar!

Bayangkan bahwa model AI tidak hanya dapat memahami gambar, tetapi juga melakukan penalaran logis seperti manusia dan memecahkan masalah visual yang kompleks - ini bukan lagi adegan dalam film fiksi ilmiah, tetapi kemampuan yang diterapkan Skywork R1V! Model ini seperti "solmes di dunia AI". Ini bagus dalam melucuti utas dan menguraikan makna mendalam dari informasi visual besar-besaran melalui analisis logis multi-langkah, dan akhirnya memberikan jawaban yang akurat. Apakah itu memecahkan teka -teki logika visual, memecahkan masalah matematika visual yang sulit, menganalisis fenomena ilmiah dalam gambar, atau bahkan membantu dengan kesimpulan diagnostik gambar medis, Skywork R1V dapat menunjukkan kekuatan yang luar biasa.

Untuk mengukur "IQ" dari model AI, data adalah yang paling meyakinkan! Dalam hal kemampuan penalaran, Skywork R1V mencetak 94.0 dan 72.0 di masing -masing tolok ukur Math500 dan AIME yang otoritatif! Ini berarti bahwa Skywork R1V dapat dengan mudah melakukannya apakah itu memecahkan masalah matematika yang kompleks atau melakukan penalaran logis yang ketat. Yang lebih menakjubkan adalah bahwa ia telah berhasil "mencangkok" kemampuan penalaran yang kuat ke bidang penglihatan, dan mencapai skor tinggi 69 dan 67,5 dalam tes benchmark penalaran visual seperti MMMU dan Mathvista! Data hard-core ini secara langsung membuktikan bahwa Skywork R1V memiliki penalaran logis teratas dan kemampuan analisis matematika!

Kunlun Wanwei dengan bangga menyatakan bahwa di balik model Skywork R1V, ada tiga inovasi teknologi utama:

Yang pertama adalah migrasi multimodal yang efisien dari kemampuan penalaran teks. Tim Kunlun Wanwei mengambil pendekatan yang unik dan dengan cerdik menggunakan proyektor visual Skywork-VL, tanpa menghabiskan sejumlah besar uang untuk melatih kembali model bahasa dan encoder visual. Sama seperti "The Great Shift of the World", ia benar -benar menggerakkan kemampuan penalaran teks yang kuat yang kuat untuk tugas -tugas visual, dan sama sekali tidak mempengaruhi keterampilan penalaran teks aslinya!

Yang kedua adalah pelatihan hibrida multimodal (iteratif SFT+GRPO). Metode pelatihan ini seperti memberi makan model "makanan bergizi campuran". Melalui kombinasi cerdas dari penyelesaian pengawasan iteratif dan pembelajaran penguatan GRPO, representasi visual-teks diselaraskan secara bertahap dan secara strategis, dan perpaduan yang efisien dari tugas lintas-modal akhirnya tercapai, dan kemampuan lintas-modal dari model juga telah membuat kemajuan besar! Dalam tes benchmark MMMU dan Mathvista, kinerja Skywork R1V bahkan dapat sebanding dengan model sumber tertutup skala yang lebih besar!

Akhirnya, distilasi rantai pemikiran panjang adaptif. Tim Kunlun Wanwei secara inovatif mengusulkan mekanisme "rem cerdas". Model ini dapat secara adaptif menyesuaikan panjang rantai inferensi sesuai dengan kompleksitas teks visual untuk menghindari "terlalu banyak berpikir", sehingga sangat meningkatkan efisiensi inferensi sambil memastikan keakuratan penalaran! Selain itu, dengan strategi distilasi diri multi-tahap, pembuatan data dan kualitas inferensi model ditingkatkan ke tingkat yang lebih tinggi, dan lebih nyaman dalam tugas multimodal yang kompleks!

Sumber terbuka Skywork R1V tidak diragukan lagi akan memberikan "senjata" penalaran multimoda yang kuat untuk para peneliti dan pengembang AI di Cina dan bahkan dunia. Kemunculannya tidak hanya akan mempercepat inovasi dan penerapan teknologi AI multimodal, tetapi juga akan mempromosikan integrasi teknologi AI yang mendalam di semua lapisan masyarakat, membuka masa depan yang lebih pintar dan lebih baik bagi kita!