Благодаря быстрому развитию технологий искусственного интеллекта, команда DeepSeek запустила свою новую систему вывода DeepSeek-V3/R1. Эта система направлена на то, чтобы стимулировать эффективное развитие общего искусственного интеллекта (AGI) посредством более высокой пропускной способности и более низкой задержки. Чтобы достичь этого, DeepSeek принимает экспертную технологию параллелизма (EP), значительно повышает эффективность вычислений графических процессоров и масштабирует партийную обработку при одновременном сокращении задержки.
Ядром DeepSeek-V3/R1 является его чрезвычайно высокая разреженность: только 8 из 256 экспертов активированы в каждом уровне модели, поэтому требуется очень большой размер партии, чтобы убедиться, что каждый эксперт обладает достаточной мощностью обработки. Архитектура этой системы использует метод дезагрегации предварительного декорации и принимает различные степени стратегии параллелизации на стадии предварительной заполнения и декодирования.
На этапе предварительного заполнения система скрывает затраты на связь с помощью стратегии перекрытия с двойным партией, что означает, что при обработке одной партии запросов затраты на связь другой партии могут быть замаскированы процессом расчета, тем самым повышая общую пропускную способность. На стадии декодирования, в ответ на дисбаланс времени на разных этапах выполнения, DeepSeek принимает пятиуровневый метод трубопровода для обеспечения бесшовного общения и вычислений.
Чтобы справиться с неравенством нагрузки, вызванным крупномасштабным параллелизмом, команда DeepSeek создала несколько балансировщиков нагрузки. Эти балансировщики нагрузки стремятся сбалансировать вычислительные и коммуникационные нагрузки на всех графических процессорах, избегая одного графического процессора стать узким местом производительности из -за операций перегрузки и обеспечения эффективного использования ресурсов.
С точки зрения производительности обслуживания, служба вывода DeepSeek-V3/R1 работает на H800GPU, используя форматы умножения и передачи матрицы, соответствующие процессу обучения. Согласно последней статистике, система обработала 608 миллиардов токенов за последние 24 часа, причем самый высокий уровень занятости узлов составляет 278 и среднесуточный уровень занятости 226,75, а общая производительность обслуживания хороша.
Благодаря эффективному архитектурному дизайну и интеллектуальному управлению нагрузкой, система вывода DeepSeek-V3/R1 не только улучшает эффективность вывода моделей искусственного интеллекта, но также обеспечивает сильную инфраструктуру для будущих исследований и применения AGI.
Проект: https://github.com/deepseek-ai/open-infra-index/blob/main/202502opensourceweek/day_6_one_more_thing_deepseekv3r1_inference_system_overview.md
Ключевые моменты:
Система вывода DeepSeek-V3/R1 достигает более высокой пропускной способности и более низкой задержки с помощью перекрестной экспертной параллельной технологии.
Стратегия перекрытия с двумя партиями и пятиуровневые трубопроводы применяются для повышения эффективности вычислений и оптимизации процесса связи.
Установите различные балансировщики нагрузки, чтобы обеспечить эффективное использование ресурсов между графическими процессорами и избежать узких мест производительности.