Король! DeepSeek-V3-0324 тихо выпущен, бесплатно для коммерческого использования, а компьютеры потребительского уровня могут работать! - Статьи ИИ

Автор：Eve Cole Время обновления：2025-05-22 02:00:02

2025 Binance Direct

Официальный веб-сайт www.binance.com/zh-cn :введите официальный веб-сайт ☜☜
Приложение: ☞☞official App Download☜☜

Поле искусственного интеллекта недавно открыла новую ослепительную звезду-Deepseek-V3-0324 большая языковая модель. Эта модель искусственного интеллекта, разработанная командой DeepSeek, изменяет отраслевой ландшафт с его удивительной способностью 641 ГБ и прорывной технологической архитектурой. Что наиболее удивительно, так это то, что эта мощная модель была выпущена сдержанными способами на платформе объятий без какой-либо предварительной рекламы, продолжая обычный прагматичный стиль компании.

Выступление DeepSeek-V3 потрясающее. Согласно отчету Исследователя ИИ Ксеофон на платформе социальных сетей X, модель достигла качественного скачка во всех индикаторах тестирования. Его производительность даже превосходит широко известную Anpropic Claude Sonnet 3.5 Commercial AI System, став одной из лучших моделей, не являющихся инференцией в настоящее время. Этот прорывной прогресс вдохновил все исследовательское сообщество ИИ.

Одной из самых привлекательных особенностей DeepSeek-V3 является его полностью открытый исходный код. В отличие от бизнес-модели, где большинство компаний западного искусственного интеллекта размещают передовые модели, стоящие за Paywalls, DeepSeek-V3 принимает лицензию MIT, что означает, что любой может загрузить и использовать модель бесплатно, даже для коммерческих целей. Эта концепция открытого совместного использования преодолевает барьеры платежей в области искусственного интеллекта и позволяет передовым технологиям принести пользу более широкому диапазону разработчиков.

С точки зрения технической архитектуры, DeepSeek-V3 принимает революционную гибридную экспертную систему (MOE). Эта инновационная архитектура позволяет модели активировать только около 37 миллиардов параметров при обработке конкретной задачи, в то время как нетрадиционная модель требует активации всех 685 миллиардов параметров. Этот селективный механизм активации значительно повышает эффективность вычислений и значительно снижает требования к вычислительным ресурсам при обеспечении производительности. Этот прорыв открывает новый путь для оптимизации крупных языковых моделей.

DeepSeek-V3 также включает в себя две передовые технологии: длительное потенциальное внимание (MLA) и многоцветный прогноз (MTP). Технология MLA значительно улучшает контекстуальное понимание модели при обработке длинного текста, в то время как технология MTP позволяет генерировать множественные токенов за один шаг, увеличивая скорость выхода почти на 80%. Вместе эти технологические инновации составляют техническую основу для превосходных результатов DeepSeek-V3.

Удивительно, но эта высокопроизводительная модель относительно удобна для оборудования. Разработчик Саймон Уиллисон отметил, что после 4-битной квантования занятость хранилища моделей может быть уменьшена до 352 ГБ, что позволяет работать на высококачественных потребительских устройствах. Исследователь ИИ Ауни Ханнун подтвердил, что в M3 Ultra Chip Mac Studio с 512 ГБ памяти, DeepSeek-V3 может работать более чем в 20 токенах в секунду. Эта локализованная возможность работы нарушает зависимость традиционных моделей искусственного интеллекта от инфраструктуры на уровне центра обработки данных.

По сравнению с предыдущими версиями, DeepSeek-V3 также претерпевает значительные изменения в своем интерактивном стиле. Ранние отзывы пользователя показали, что новая модель представила более формальное и техническое выражение, которое в отличие от более гуманизированного стиля диалога предыдущей версии. Эта корректировка стиля может отражать пересмотр разработчика профессионального позиционирования модели, что делает ее более подходящим для сценариев технического применения.

Стратегия выпуска DeepSeek-V3 отражает значительные различия в бизнес-моделях между китайскими компаниями ИИ и западными сверстниками. В среде, где продвинутые чипы ограничены, китайские компании уделяют больше внимания оптимизации алгоритмов и повышению эффективности. Это «инновации под ограничением аппаратного обеспечения» может стать уникальным конкурентным преимуществом. Китайские технологические гиганты, включая Baidu, Alibaba и Tencent, также последовали за стратегиями с открытым исходным кодом, чтобы совместно продвигать более открытую экосистему ИИ.

Эксперты промышленности считают, что DeepSeek-V3, вероятно, станет основой своей модели вывода следующего поколения DeepSeek-R2. Учитывая, что генеральный директор Nvidia Hwang Junxun однажды указал, что потребление расчетов модели Deepseek R1 в 100 раз больше, чем у ИИ, не являющегося инференцией, еще более ценно для достижения такой производительности в рамках ограничений ресурсов. Если R2 продолжит эту траекторию развития, это, вероятно, станет существенной проблемой для предстоящего GPT-5 Openai.

В настоящее время разработчики могут загружать полные веса модели через обнимающееся лицо или испытать интерфейс API через такие платформы, как OpenRouter. Открытая стратегия DeepSeek переопределяет глобальную модель разработки ИИ, что указывает на то, что наступает новая эра большей популяризации и инноваций и открытости.

<｜ Конец предложения ｜>