Kunlun Wanwei는 오늘 공식적으로 Skywork R1V Multimodal Onerference 모델이 공식적으로 오픈 소스라고 발표했습니다! 이것은 업계에서 중국 최초의 멀티 모달 추론 모델 오픈 소스 일뿐 만 아니라 멀티 모달 이해와 추론 분야에서 중국의 AI 힘에 대한 이정표 단계이기도합니다! 이제부터 모델 가중치와 기술 보고서는 외부 세계에 완전히 열릴 것입니다!
AI 모델이 그림을 이해할뿐만 아니라 인간과 같은 논리적 추론을 수행하고 복잡한 시각적 문제를 해결할 수 있다고 상상해보십시오. 이것은 더 이상 공상 과학 영화의 장면이 아니라 Skywork R1V가 구현하는 기능입니다! 이 모델은 "AI 세계의 Solmes"와 같습니다. 다중 단계 논리 분석을 통해 스레드를 벗기고 거대한 시각적 정보에서 깊은 의미를 해독하는 것이 좋습니다. 결국 정확한 답변을 제공합니다. 시각적 논리 퍼즐을 풀고, 어려운 시각적 수학 문제 해결, 이미지의 과학적 현상 분석, 심지어 의료 이미지의 진단 추론을 지원하든 Skywork R1V는 놀라운 강점을 보여줄 수 있습니다.

AI 모델의 "IQ"를 측정하려면 데이터가 가장 설득력이 있습니다! 추론 추론 능력의 관점에서, Skywork R1V는 권위있는 MATH500 및 AIME 벤치 마크에서 각각 94.0과 72.0을 기록했습니다! 이것은 Skywork R1V가 복잡한 수학적 문제를 해결하거나 엄격한 논리적 추론을 수행하든 쉽게 할 수 있음을 의미합니다. 더 놀라운 점은 시력 분야에 강력한 추론 능력을 성공적으로 "이식"했으며 MMMU 및 MathVista와 같은 시각적 추론 벤치 마크 테스트에서 69 및 67.5의 높은 점수를 달성했다는 것입니다! 이 하드 코어 데이터는 SkyWork R1V가 최고의 논리적 추론 및 수학적 분석 기능을 가지고 있음을 직접 증명합니다!

Kunlun Wanwei는 Skywork R1V 모델 뒤에 세 가지 주요 기술 혁신이 있다고 자랑스럽게 말했습니다.
첫 번째는 텍스트 추론 기능의 멀티 모달 효율적인 마이그레이션입니다. Kunlun Wanwei 팀은 독특한 접근 방식을 취했으며 Skywork-VL의 Visual Projector를 영리하게 사용하여 언어 모델과 비주얼 인코더를 재교육하기 위해 많은 돈을 소비하지 않았습니다. "세상의 큰 변화"와 마찬가지로, 그것은 독창적 인 강력한 텍스트 추론 능력을 시각적 작업으로 완벽하게 옮겼으며, 원래 텍스트 추론 기술에 전혀 영향을 미치지 않았습니다!
두 번째는 멀티 모달 하이브리드 훈련 (반복 SFT+GRPO)입니다. 이 훈련 방법은 모델에 "혼합 영양가있는 식사"를 공급하는 것과 같습니다. 반복적 인 감독 미세 조정 및 GRPO 강화 학습의 영리한 조합을 통해 시각적 텍스트 표현은 단계와 전략적으로 정렬되며, 교차 모달 작업의 효율적인 융합이 달성되며 모델의 교차 모달 기능도 큰 진전을 보였습니다! MMMU 및 MathVista 벤치 마크 테스트에서 SkyWork R1V의 성능은 대규모 폐쇄 소스 모델과 비교할 수 있습니다!
마지막으로, 적응성 길이 사고 체인 증류. Kunlun Wanwei 팀은 "지능형 브레이크"메커니즘을 혁신적으로 제안했습니다. 이 모델은 시각적 텍스트의 복잡성에 따라 "과도한 생각"을 피하기 위해 추론 효율을 크게 향상시키면서 추론의 정확성을 보장하는 것으로 추론 체인의 길이를 적응 적으로 조정할 수 있습니다! 또한, 다단계 자체 조작 전략을 통해 모델의 데이터 생성 및 추론 품질이 더 높은 수준으로 향상되며 복잡한 멀티 모드 작업에서 더 편합니다!

Skywork R1V의 오픈 소스는 의심 할 여지없이 중국과 세계의 AI 연구원과 개발자들에게 강력한 멀티 모달 추론 "무기"를 제공 할 것입니다. 그것의 출현은 멀티 모달 AI 기술의 혁신과 적용을 가속화 할뿐만 아니라 모든 삶에서 AI 기술의 깊은 통합을 촉진하여 우리에게 더 똑똑하고 더 나은 미래를 열어 줄 것입니다!