Debseek-V3 в Китае Deepseek-V3 дебютировал: 20 токенов/вторая скорость бега, может ли он переписать схему искусственного интеллекта? - Статьи ИИ

Автор：Eve Cole Время обновления：2025-05-21 18:25:01

2025 Binance Direct

Официальный веб-сайт www.binance.com/zh-cn :введите официальный веб-сайт ☜☜
Приложение: ☞☞official App Download☜☜

Китайский стартап искусственного интеллекта Deepseek недавно тихо выпустил свою новейшую крупномасштабную языковую модель Deepseek-V3-0324, которая привлекло широкое внимание в индустрии искусственного интеллекта. Модель появляется в библиотеке ресурсов ИИ, обнимающей лицо на 641 ГБ, продолжая обычный скромный стиль Deepseek. Он не выполняет крупномасштабную рекламу и поставляется только с пустым файлом чтения и весами модели.

Эта модель лицензирована с помощью MIT, что позволяет использовать ее бесплатно для коммерческих целей и может работать непосредственно на оборудовании потребительского уровня, такого как Apple Mac Studio с M3 Ultra Chip. Исследователь ИИ Ауни Ханнун сообщил в социальных сетях, что 4-битная количественная версия DeepSeek-V3-0324 работает быстрее 20 токенов в секунду на Ultra Chip 512 ГБ. Несмотря на высокую цену Mac Studio, способность запускать такую крупномасштабную модель локально нарушает предыдущую зависимость высшего искусственного интеллекта от центров обработки данных.

DeepSeek

DeepSeek-V3-0324 принимает гибридную архитектуру эксперта (MOE), которая активирует только около 37 миллиардов параметров вместо всех 685 миллиардов параметров при выполнении задач, тем самым значительно повышая эффективность. В то же время модель также включает в себя технологии длительного потенциального внимания (MLA) и мульти-ток-прогнозирования (MTP). MLA повышает способность к контекстуальному пониманию модели в длинных текстах. MTP позволяет модели генерировать несколько токенов одновременно, а скорость выходной мощности увеличивается почти на 80%. 4-битная квантовая версия снижает спрос на хранение до 352 ГБ, что позволяет работать на высококачественном оборудовании потребительского уровня.

Согласно ранним тестерам, DeepSeek-V3-0324 значительно улучшился по сравнению с предыдущей версией. Исследователь искусственного интеллекта Ксеофон утверждает, что модель сделала огромный скачок во всех метриках тестирования, превзойдя Claud Sonnet Antropic 3.5, чтобы стать лучшей моделью не-преференции. Более того, в отличие от сонета, на который необходимо подписаться, вес DeepSeek-V3-0324 может быть загружен бесплатно.

Стратегия выпуска с открытым исходным кодом DeepSeek резко контрастирует с западными компаниями искусственного интеллекта. Соединенные Штаты Openai и Anpropic установили пороговые значения для моделей, в то время как китайские компании по искусственному ИИ все чаще склонны предоставить лицензии с открытым исходным кодом. Эта стратегия ускорила развитие китайской экосистемы ИИ, и технологические гиганты, такие как Baidu, Alibaba и Tencent, также последовали их примеру и выпущены модели ИИ с открытым исходным кодом. Столкнувшись за ограничениями чипа Nvidia, китайские компании превратили свои недостатки в конкурентные преимущества, подчеркивая эффективность и оптимизацию.

DeepSeek-V3-0324, вероятно, станет основой предстоящей модели вывода DeepSeek-R2. Текущий вычисление модели вывода вычисляет спрос на вычисление огромного. Если DeepSeek-R2 будет хорошо отработать, это создаст прямой вызов для слухов GPT-5 Openai.

Для пользователей и разработчиков, которые хотят испытать DeepSeek-V3-0324, полный вес модели может быть загружен с обнимающего лица, но файлы большие и требуют высокого хранилища и вычислительных ресурсов. Вы также можете выбрать облачные сервисы, такие как OpenRouter, который предоставляет бесплатный доступ API и дружественный интерфейс чата; Собственный интерфейс чата DeepSeek также мог быть обновлен для поддержки новых версий. Разработчики также могут интегрировать модель с помощью поставщиков услуг рассуждения, таких как Hyperbolic Labs.

Стоит отметить, что DeepSeek-V3-0324 изменился в стиле общения, от стиля диалога, похожий на человека, до более формального и технического стиля. Этот сдвиг предназначен для адаптации к профессиональным и техническим сценариям применения, но может повлиять на его привлекательность в приложениях, ориентированных на потребителя.

Стратегия с открытым исходным кодом DeepSeek изменит глобальный ландшафт ИИ. Ранее Китайский разрыв с ИИ с Соединенными Штатами был на 1-2 года, но теперь он значительно сузился до 3-6 месяцев, и некоторые районы даже достигли догоняния. Подобно тому, как Android Systems получит глобальное доминирование через открытый исходный код, ожидается, что модель ИИ с открытым исходным кодом будет выделяться в конкуренции с широким спектром приложений и коллективных инноваций разработчиков и способствует более широкому применению технологии ИИ.