인공 지능 기술의 빠른 개발로 Deepseek 팀은 새로운 Deepseek-V3/R1 추론 시스템을 시작했습니다. 이 시스템은 더 높은 처리량과 낮은 대기 시간을 통해 일반 인공 지능 (AGI)의 효율적인 개발을 주도하는 것을 목표로합니다. 이를 달성하기 위해 DeepSeek는 EP (Expert Parallism) 기술을 채택하고 GPU 컴퓨팅 효율성을 크게 향상시키고 대기 시간을 줄이면 배치 처리를 확대합니다.
DeepSeek-V3/R1의 핵심은 매우 높은 희소성이며, 모델의 각 계층에서 256 명의 전문가 중 8 명만 활성화되므로 각 전문가가 충분한 처리 능력을 갖도록하기 위해 매우 큰 배치 크기가 필요합니다. 이 시스템의 아키텍처는 Prefill-Decode Disaggregation 방법을 채택하고 프리 필드 및 디코딩 단계 동안 다른 정도의 병렬화 전략을 채택합니다.
사전 충전 단계에서 시스템은 이중 배치 오버랩 전략을 통해 통신 비용을 숨 깁니다. 즉, 한 번의 요청을 처리 할 때 다른 배치의 통신 비용을 계산 프로세스에 의해 마스킹하여 전체 처리량을 향상시킬 수 있습니다. 디코딩 단계에서, 다른 실행 단계에서의 시간 불균형에 대한 응답으로, DeepSeek는 5 단계 파이프 라인 방법을 채택하여 원활한 통신 및 컴퓨팅 중첩을 달성합니다.
대규모 병렬 처리로 인한 부하 불평등에 대처하기 위해 DeepSeek 팀은 여러로드 밸런서를 설정했습니다. 이러한로드 밸런서는 모든 GPU의 컴퓨팅 및 통신 부하 균형을 유지하고, 단일 GPU가 과부하 작업으로 인해 성능 병목 현상이되는 것을 피하고, 효율적인 리소스 활용을 보장하기 위해 노력하고 있습니다.
서비스 성능 측면에서, DeepSeek-V3/R1 추론 서비스는 훈련 프로세스와 일치하는 행렬 곱셈 및 전송 형식을 사용하여 H800GPU에서 실행됩니다. 최신 통계에 따르면,이 시스템은 지난 24 시간 동안 6,800 억 개의 입력 토큰을 처리했으며, 노드 점유율이 278 명이고 평균 일일 점유율은 226.75이며 전체 서비스 성능은 양호합니다.
효율적인 건축 설계 및 지능형 부하 관리를 통해 DeepSeek-V3/R1 추론 시스템은 인공 지능 모델의 추론 성능을 향상시킬뿐만 아니라 향후 AGI 연구 및 응용 프로그램에 대한 강력한 인프라 지원을 제공합니다.
프로젝트 : https://github.com/deepseek-ai/open-infra-index/blob/main/202502opensourceweek/day_6_one_more_thing_deepseekv3r1_inference_system_overview.md
핵심 사항 :
DeepSeek-V3/R1 추론 시스템은 크로스 노드 전문가 병렬 기술을 통해 더 높은 처리량과 낮은 대기 시간을 달성합니다.
이중 배치 오버랩 전략 및 5 단계 파이프 라인은 컴퓨팅 효율성을 향상시키고 통신 프로세스를 최적화하기 위해 채택됩니다.
GPU 간의 자원을 효율적으로 활용하고 성능 병목 현상을 피하기 위해 다양한로드 밸런서를 설정하십시오.