Kunlun Wanweiは最近、「R1V」と呼ばれる世界初の産業マルチモーダル推論モデルSkywork R1Vを公式にリリースしました。 38億個のパラメーターを備えたこのモデルは、よく知られているクローズドソースモデルのDeepSeek-R1に近く、複数のベンチマークでうまく機能し、現在の最新技術(SOTAS)のシリーズを掃除しています。 Kunlun Wanweiは、テクノロジーの共有と進歩を促進し、グローバルAIオープンソースコミュニティに新しい活力を注入することを目指して、オープンソースR1Vを選択しました。

傑出したマルチモーダル推論機能で知られるR1Vは、テキストと視覚情報をシームレスに組み合わせて強力なインテリジェンスを実証することができます。具体的には、R1Vは、視覚的な質問と回答のClaude3.5SonnetやGPT-4Oなどのクローズドソースモデルを直接ベンチマークし、トップテキストの推論機能を維持します。 MMMUベンチマークでは、R1Vは69の高いスコアの同じサイズのモデルの新しいレコードを設定し、Mathvistaテストで67.5マークを達成し、複雑な数学的推論と論理分析におけるその強力な能力を示しました。
R1Vの成功は、Kunlun Wanweiの研究チームの多くの革新的な技術によるものです。その中には、クロスモーダル転送学習が含まれており、大規模なモデルのテキスト推論機能を視覚モードに効果的に転送し、マルチモーダル推論データの必要性を大幅に減らします。さらに、R1Vが採用したハイブリッドトレーニング戦略は、反復監督の微調整と強化学習の組み合わせにより、思考チェーンの長さを動的に調整し、それによって推論効率を改善します。 R1Vは、推論プロセスの「考え直し」を避けるために、適応的な長さの思考チェーン蒸留フレームワークも導入していることに言及する価値があります。これにより、推論の効率と質が大幅に向上します。
R1Vの発売により、Kunlun Wanweiは世界初のオープンソースマルチモーダル推論モデル会社になっただけでなく、AGI(一般的な人工知能)の夢の実現を促進するための重要な一歩を踏み出しました。モデルの重み、推論コード、および技術レポートはすべて公開されており、誰でもGitHubとHugging Faceを介して関連するリソースを取得できます。
モデルの重量ダウンロード
顔を抱き締める:
https://huggingface.co/skywork/skywork-r1v-38b
Github:
https://github.com/skyworkai/skywork-r1v
詳細な技術レポート
https://github.com/skyworkai/skywork-r1v/blob/main/skywork_r1v.pdf
キーポイント:
世界初の産業用オープンソースマルチモーダル推論モデルであるSkywork R1Vは、最大38億のパラメーターで公式にリリースされました。
R1Vは、特にMMMUとMathvistaでそれぞれ69と67.5の高いスコアで、複数のベンチマークでうまく機能しました。
Kunlun Wanweiのオープンソースイニシアチブは、テクノロジーの共有を促進し、世界のAIオープンソースコミュニティに活力を注入し、AGIの夢が実現するのを支援することを目的としています。