Kunlun Wanwei gab heute offiziell bekannt, dass das von ihnen erstellte Skywork R1V -Modell offiziell Open Source war! Dies ist nicht nur Chinas erstes multimodales Inferenzmodell in der Branche, sondern markiert auch einen Meilenstein für Chinas KI -Macht im Bereich multimodaler Verständnis und Argumentation! Von nun an sind die Modellgewichte und technischen Berichte für die Außenwelt völlig offen!
Stellen Sie sich vor, ein KI -Modell kann nicht nur Bilder verstehen, sondern auch logische Argumentation wie Menschen durchführen und komplexe visuelle Probleme lösen - dies ist keine Szene mehr in Science -Fiction -Filmen, sondern eine Fähigkeit, die Skywork R1V implementiert! Dieses Modell ist wie "Solmes in der KI -Welt". Es ist gut darin, die Threads zu entfernen und die tiefe Bedeutung aus massiven visuellen Informationen durch mehrstufige logische Analyse zu entschlüsseln, und gibt schließlich eine genaue Antwort. Ob es darum geht, visuelle Logik -Rätsel zu lösen, schwierige visuelle Mathematikprobleme zu lösen, wissenschaftliche Phänomene in Bildern zu analysieren oder sogar die diagnostischen Schlussfolgerungen von medizinischen Bildern zu unterstützen, Skywork R1V kann erstaunliche Stärke zeigen.

Um den "IQ" eines KI -Modells zu messen, sind die Daten am überzeugendsten! In Bezug auf die Argumentationsfähigkeit erzielte Skywork R1V 94,0 und 72,0 in den maßgeblichen Math500- bzw. Aime -Benchmarks! Dies bedeutet, dass Skywork R1V dies leicht tun kann, unabhängig davon, ob es komplexe mathematische Probleme löst oder strenge logische Argumentation durchführt. Noch erstaunlicher ist, dass es seine starke Argumentationsfähigkeit erfolgreich in das Sichtfeld "gepfropft" hat und in visuellen Argumentationstests wie MMMU und Mathvista hohe Punktzahlen von 69 und 67,5 erreicht hat! Diese Hard-Core-Daten beweisen direkt, dass Skywork R1V über hochrangige logische Argumenten und mathematische Analysefunktionen verfügt!

Kunlun Wanwei stellte stolz darauf, dass es hinter dem R1V -Modell von Skywork drei technologische Innovationen gibt:
Das erste ist die multimodale effiziente Migration von Funktionen der Textbedenken. Das Team von Kunlun Wanwei verfolgte einen einzigartigen Ansatz und verwendete den visuellen Projektor von Skywork-VL geschickt, ohne große Geldbeträge auszugeben, um das Sprachmodell und den visuellen Encoder zu übertreffen. Genau wie "die große Verschiebung der Welt" bewegte es seine ursprüngliche Fähigkeit zur mächtigen Textkabine auf visuelle Aufgaben perfekt und wirkte sich überhaupt nicht auf die Fähigkeiten der ursprünglichen Texte aus!
Das zweite ist ein multimodales Hybridtraining (iterativer SFT+Grpo). Diese Trainingsmethode ist wie das Fütterung des Modells eine "gemischte nahrhafte Mahlzeit". Durch die clevere Kombination aus iterativer Überwachung Feinabstimmung und GRPO-Verstärkungslernen ist die visuelle Textdarstellung in Stufen und strategisch ausgerichtet, und die effiziente Verschmelzung von Kreuzmodalaufgaben wird schließlich erreicht, und die Quermodalfähigkeiten des Modells haben auch große Fortschritte gemacht! Bei den MMMU- und Mathvista-Benchmark-Tests kann die Leistung von Skywork R1V sogar mit einem größeren Modell mit geschlossenem Quellen vergleichbar sein!
Schließlich, Anpassungskette Destillation. Das Kunlun Wanwei Team schlug innovativ einen "intelligenten Bremsmechanismus" vor. Das Modell kann die Länge der Inferenzkette adaptiv entsprechend der Komplexität des visuellen Textes anpassen, um "Überdenken" zu vermeiden, wodurch die Inferenz-Effizienz erheblich verbessert wird und gleichzeitig die Genauigkeit der Argumentation sicherstellt! Darüber hinaus werden die Datenerzeugung und die Inferenzqualität des Modells mit der mehrstufigen Selbstdestillationsstrategie auf ein höheres Niveau verbessert, und es ist in komplexen multimodalen Aufgaben besser beruhigt!

Die Open Source of Skywork R1V wird zweifellos ein leistungsstarkes multimodales "Waffe" für KI -Forscher und -Enteile in China und sogar in der Welt bieten. Seine Entstehung wird nicht nur die Innovation und Anwendung der multimodalen KI -Technologie beschleunigen, sondern auch die tiefe Integration der KI -Technologie in allen Lebensbereichen fördern und für uns eine intelligentere und bessere Zukunft eröffnen!