Король! ИИ Китай добавляет еще одну «козырь»! Kunlun Wanwei Skywork R1V MultiModal Model - это шокирующий и открытый исходный код! - Статьи ИИ

Автор：Eve Cole Время обновления：2025-05-23 01:25:02

2025 Binance Direct

Официальный веб-сайт www.binance.com/zh-cn :введите официальный веб-сайт ☜☜
Приложение: ☞☞official App Download☜☜

Kunlun Wanwei официально объявил сегодня, что модель мультимодального вывода Skywork R1V, которую они создали, была официально с открытым исходным кодом! Это не только первая китайская модель мультимодального вывода с открытым исходным кодом в отрасли, но также отмечает веху для китайской власти ИИ в области мультимодального понимания и рассуждений! Отныне модель веса и технические отчеты будут полностью открыты для внешнего мира!

Представьте, что модель ИИ может не только понимать картинки, но и выполнять логические рассуждения, такие как люди, и решать сложные визуальные проблемы - это больше не сцена в научно -фантастических фильмах, а способность, которую реализует Skywork R1V! Эта модель похожа на «Solmes в мире ИИ». Он хорошо разбирается в том, чтобы снимать потоки и расшифровать глубокий смысл от массивной визуальной информации с помощью многоэтапного логического анализа и, наконец, дает точный ответ. Независимо от того, решает ли это головоломки визуальной логики, решение сложных визуальных математических задач, анализ научных явлений на изображениях или даже помощь в диагностических выводах медицинских изображений, Skywork R1V может показать удивительную силу.

Чтобы измерить «IQ» модели ИИ, данные являются наиболее убедительными! С точки зрения рассуждения о способности, Skywork R1V набрал 94,0 и 72,0 в авторитетных тестах Math500 и AIME соответственно! Это означает, что Skywork R1V может легко сделать это, независимо от того, решает сложные математические задачи или проводят строгие логические рассуждения. Что еще более удивительно, так это то, что он успешно «привит» свою мощную способность рассуждать в поле зрения и достиг высоких баллов 69 и 67,5 в тестах на визуальных рассуждениях, таких как MMMU и Mathvista! Эти жесткие данные непосредственно доказывают, что Skywork R1V обладает лучшими логическими рассуждениями и математическим анализом!

Kunlun Wanwei с гордостью заявил, что за моделью Skywork R1V есть три ключевых технологических инновация:

Первый - это мультимодальная эффективная миграция возможностей для рассуждений. Команда Kunlun Wanwei приняла уникальный подход и умело использовал визуальный проектор Skywork-VL, не потратив огромные суммы денег на переподготовку языковой модели и визуального кодера. Точно так же, как «Великий сдвиг мира», он прекрасно перенесла свою оригинальную мощную способность рассуждения текста в визуальные задачи и вообще не повлиял на свои исходные навыки рассуждения текста!

Вторым является мультимодальное гибридное обучение (итеративный SFT+GRPO). Этот метод обучения похож на кормление модели «смешанной питательной еды». Благодаря умной комбинации итеративного надзора с точной настройкой и обучением подкрепления GRPO, представление визуального текста выровнены поэтапно и стратегически, и эффективное слияние межмодальных задач наконец-то достигается, и кросс-модальные возможности модели также добились значительных успехов! В тестах MMMU и Mathvista контрольные тесты производительность Skywork R1V может быть даже сопоставимой с более масштабной моделью с закрытым исходным кодом!

Наконец, адаптивная длина мышления дистилляция цепи. Команда Kunlun Wanwei инновационно предложила механизм «интеллектуального тормоза». Модель может адаптивно отрегулировать длину цепочки вывода в зависимости от сложности визуального текста, чтобы избежать «переосмысления», тем самым значительно повышая эффективность вывода, обеспечивая при этом точность рассуждений! Кроме того, с учетом многоэтапной стратегии самоотделения, генерация данных и качество вывода модели улучшаются до более высокого уровня, и это более непринужденно в сложных мультимодальных задачах!

Открытый источник Skywork R1V, несомненно, предоставит мощное мультимодальное «оружие» для исследователей и разработчиков ИИ в Китае и даже в мире. Его появление не только ускорит инновации и применение мультимодальной технологии искусственного интеллекта, но также будет способствовать глубокой интеграции технологии ИИ во всех слоях жизни, открывая для нас более умное и лучшее будущее!