กษัตริย์ระเบิด! AI ของจีนเพิ่ม "ทรัมป์การ์ด" อื่น! Kunlun Wanwei Skywork R1V Multimodal Imperfer Model นั้นน่าตกใจและโอเพ่นซอร์ส! - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-05-23 01:25:02

2025 Binance Direct

Kunlun Wanwei ประกาศอย่างเป็นทางการในวันนี้ว่า Skywork R1V Multimodal INFERFENCE MODEL ที่พวกเขาสร้างขึ้นมานั้นเป็นโอเพ่นซอร์สอย่างเป็นทางการ! นี่ไม่ใช่แค่แบบจำลองการอนุมานหลายรูปแบบครั้งแรกของจีนในอุตสาหกรรมเท่านั้น แต่ยังเป็นขั้นตอนสำคัญสำหรับพลัง AI ของจีนในด้านความเข้าใจและการใช้เหตุผลหลายรูปแบบ! ต่อจากนี้ไปน้ำหนักรุ่นและรายงานทางเทคนิคจะเปิดให้โลกภายนอกอย่างสมบูรณ์!

ลองนึกภาพว่าโมเดล AI ไม่เพียง แต่เข้าใจรูปภาพ แต่ยังดำเนินการเหตุผลเชิงตรรกะเช่นมนุษย์และแก้ปัญหาภาพที่ซับซ้อน - นี่ไม่ใช่ฉากในภาพยนตร์นิยายวิทยาศาสตร์อีกต่อไป แต่ความสามารถที่ Skywork R1V กำลังดำเนินการอยู่! โมเดลนี้เป็นเหมือน "Solmes ใน AI World" มันเป็นสิ่งที่ดีในการลอกเธรดและถอดรหัสความหมายลึกจากข้อมูลภาพขนาดใหญ่ผ่านการวิเคราะห์เชิงตรรกะหลายขั้นตอนและในที่สุดก็ให้คำตอบที่แม่นยำ ไม่ว่าจะเป็นการแก้ปริศนาตรรกะด้วยภาพการแก้ปัญหาทางคณิตศาสตร์ที่ยากลำบากการวิเคราะห์ปรากฏการณ์ทางวิทยาศาสตร์ในภาพหรือแม้กระทั่งการช่วยเหลือในการวินิจฉัยการวินิจฉัยของภาพทางการแพทย์ Skywork R1V สามารถแสดงความแข็งแกร่งที่น่าทึ่ง

ในการวัด "IQ" ของโมเดล AI ข้อมูลเป็นสิ่งที่น่าเชื่อถือที่สุด! ในแง่ของความสามารถในการใช้เหตุผลในการใช้เหตุผล Skywork R1V ได้คะแนน 94.0 และ 72.0 ใน Math500 ที่มีอำนาจและมาตรฐาน AIME ตามลำดับ! ซึ่งหมายความว่า Skywork R1V สามารถทำได้อย่างง่ายดายไม่ว่าจะเป็นการแก้ปัญหาทางคณิตศาสตร์ที่ซับซ้อนหรือดำเนินการเหตุผลเชิงตรรกะที่เข้มงวด สิ่งที่น่าอัศจรรย์ยิ่งกว่านั้นคือมันประสบความสำเร็จในการ "ต่อกิ่ง" ความสามารถในการใช้เหตุผลที่ทรงพลังในด้านการมองเห็นและได้รับคะแนนสูง 69 และ 67.5 ในการทดสอบมาตรฐานการใช้เหตุผลเช่น MMMU และ Mathvista! ข้อมูลฮาร์ดคอร์เหล่านี้พิสูจน์ได้โดยตรงว่า Skywork R1V มีเหตุผลเชิงตรรกะและความสามารถในการวิเคราะห์ทางคณิตศาสตร์!

Kunlun Wanwei กล่าวอย่างภาคภูมิใจว่าเบื้องหลังรุ่น Skywork R1V มีนวัตกรรมทางเทคโนโลยีที่สำคัญสามประการ:

อย่างแรกคือการย้ายถิ่นที่มีประสิทธิภาพหลายรูปแบบของความสามารถในการใช้เหตุผลข้อความ ทีม Kunlun Wanwei ใช้วิธีการที่ไม่เหมือนใครและใช้โปรเจ็กเตอร์ภาพของ Skywork-VL อย่างชาญฉลาดโดยไม่ต้องใช้เงินจำนวนมากเพื่อฝึกฝนรูปแบบภาษาและเครื่องเข้ารหัสภาพ เช่นเดียวกับ "The Great Shift of the World" มันได้ย้ายความสามารถในการให้เหตุผลเชิงข้อความที่ทรงพลังในการมองเห็นงานและไม่ส่งผลกระทบต่อทักษะการให้เหตุผลในการให้เหตุผลข้อความต้นฉบับเลย!

ประการที่สองคือการฝึกอบรมไฮบริดแบบหลายรูปแบบ (ซ้ำ SFT+GRPO) วิธีการฝึกอบรมนี้เป็นเหมือนการให้อาหารแบบจำลอง "อาหารที่มีคุณค่าทางโภชนาการผสม" ผ่านการรวมกันอย่างชาญฉลาดของการควบคุมการปรับแต่งซ้ำ ๆ และการเรียนรู้การเสริมแรง GRPO การเป็นตัวแทนข้อความภาพนั้นสอดคล้องกันในขั้นตอนและเชิงกลยุทธ์และการหลอมรวมที่มีประสิทธิภาพของงานข้ามรูปแบบในที่สุดก็ประสบความสำเร็จในที่สุด ในการทดสอบเกณฑ์มาตรฐาน MMMU และ Mathvista ประสิทธิภาพของ Skywork R1V สามารถเทียบเคียงได้กับโมเดลปิดแหล่งที่มีขนาดใหญ่กว่า!

ในที่สุดการกลั่นโซ่การคิดความยาวแบบปรับตัว ทีม Kunlun Wanwei เสนอกลไก "เบรกอัจฉริยะ" อย่างสร้างสรรค์ แบบจำลองสามารถปรับความยาวของห่วงโซ่การอนุมานตามความซับซ้อนของข้อความภาพเพื่อหลีกเลี่ยง "การคิดมาก" ซึ่งจะช่วยปรับปรุงประสิทธิภาพการอนุมานอย่างมากในขณะที่มั่นใจได้ถึงความแม่นยำของการใช้เหตุผล! นอกจากนี้ด้วยกลยุทธ์การยั่วยุด้วยตนเองหลายขั้นตอนการสร้างข้อมูลและคุณภาพการอนุมานของแบบจำลองจะได้รับการปรับปรุงให้ดีขึ้นในระดับที่สูงขึ้น

แหล่งที่มาของ Skywork R1V จะให้เหตุผล "อาวุธ" ที่มีประสิทธิภาพหลายรูปแบบสำหรับนักวิจัยและนักพัฒนา AI ในประเทศจีนและแม้แต่โลก การเกิดขึ้นของมันจะไม่เพียง แต่เร่งสร้างนวัตกรรมและการประยุกต์ใช้เทคโนโลยี AI แบบหลายรูปแบบเท่านั้น แต่ยังจะส่งเสริมการรวมเทคโนโลยี AI อย่างลึกซึ้งในทุกช่วงชีวิตเปิดตัวในอนาคตที่ชาญฉลาดและดีขึ้นสำหรับเรา!