Kunlun Wanweiは本日、彼らが作成したSkywork R1Vマルチモーダル推論モデルが公式にオープンソースであると正式に発表しました!これは、業界で中国初のマルチモーダル推論モデルのオープンソースであるだけでなく、マルチモーダルの理解と推論の分野における中国のAI力のマイルストーンステップでもあります。これからは、モデルの重みと技術レポートは外の世界に完全に開かれます!
AIモデルは写真を理解するだけでなく、人間のような論理的推論を実行し、複雑な視覚的問題を解決できると想像してください。これはもはやサイエンスフィクション映画のシーンではなく、Skywork R1Vが実装している能力です。このモデルは、「AIの世界のソルメス」のようなものです。スレッドを剥ぎ取り、マルチステップの論理分析を通じて大規模な視覚情報から深い意味を解読するのが得意であり、最終的に正確な答えを提供します。視覚ロジックパズルの解決、困難な視覚数学の問題の解決、画像の科学的現象の分析、または医療画像の診断推論を支援することさえ、Skywork R1Vは驚くべき強さを示すことができます。

AIモデルの「IQ」を測定するために、データが最も説得力があります!推論能力の観点から、Skywork R1Vは、権威あるMATH500とAIMEベンチマークでそれぞれ94.0と72.0を獲得しました!これは、Skywork R1Vが複雑な数学的問題を解決するか、厳密な論理的推論を実施しているかにかかわらず、簡単にそれを行うことができることを意味します。さらに驚くべきことは、視野への強力な推論能力を「接ぎ木」し、MMMUやMathvistaなどの視覚的推論ベンチマークテストで69と67.5の高いスコアを達成したことです。これらのハードコアデータは、Skywork R1Vには論理的な推論と数学の分析機能が最も高いことを直接証明しています。

Kunlun Wanweiは、Skywork R1Vモデルの背後には、3つの重要な技術革新があると誇らしげに述べました。
1つ目は、テキスト推論機能のマルチモーダル効率的な移行です。 Kunlun Wanweiチームはユニークなアプローチを取り、Skywork-VLのビジュアルプロジェクターを巧みに使用しました。 「世界の大きなシフト」と同じように、それは視覚的なタスクに対する元の強力なテキスト推論能力を完全に動かし、元のテキスト推論スキルにはまったく影響しませんでした!
2つ目は、マルチモーダルハイブリッドトレーニング(反復SFT+GRPO)です。このトレーニング方法は、モデルに「混合栄養価の高い食事」を与えるようなものです。反復監督の微調整とGRPOの強化学習の巧妙な組み合わせを通じて、視覚的テキスト表現は段階的および戦略的に整列し、クロスモーダルタスクの効率的な融合が最終的に達成され、モデルのクロスモーダル機能も大きな進歩を遂げました! MMMUおよびMathvistaベンチマークテストでは、Skywork R1Vのパフォーマンスは、大規模なクローズドソースモデルに匹敵することもあります!
最後に、適応型思考チェーン蒸留。 Kunlun Wanweiチームは、「インテリジェントブレーキ」メカニズムを革新的に提案しました。このモデルは、視覚テキストの複雑さに応じて推論チェーンの長さを適応的に調整して、「オーバーシンク」を避け、それにより推論効率を大幅に改善しながら、推論の精度を確保します。さらに、マルチステージの自己導入戦略により、モデルのデータ生成と推論の品質はより高いレベルに向上し、複雑なマルチモーダルタスクでより安心しています!

Skywork R1Vのオープンソースは、間違いなく、中国、さらには世界のAI研究者と開発者に強力なマルチモーダル推論を提供します。その出現は、マルチモーダルAIテクノロジーの革新と応用を加速するだけでなく、あらゆる存続期間におけるAIテクノロジーの深い統合を促進し、私たちにとってより賢く、より良い未来を開きます!