Com o rápido desenvolvimento da tecnologia de inteligência artificial, a equipe Deepseek lançou seu novo sistema de inferência Deepseek-V3/R1. Este sistema tem como objetivo impulsionar o desenvolvimento eficiente da inteligência artificial geral (AGI) através de maior rendimento e menor latência. Para conseguir isso, a Deepseek adota a tecnologia de paralelismo de especialistas (EP), melhora significativamente a eficiência da computação da GPU e aumenta o processamento em lote e reduz a latência.
O núcleo do Deepseek-V3/R1 é sua esparsidade extremamente alta, com apenas 8 dos 256 especialistas ativados em cada camada do modelo, portanto, é necessário um tamanho de lote muito grande para garantir que cada especialista tenha poder de processamento suficiente. A arquitetura deste sistema adota o método de desagregação de codificação pré-enchimento e adota diferentes graus de estratégias de paralelização durante os estágios de pré-enchir e decodificação.
Durante a fase de pré-preenchimento, o sistema oculta os custos de comunicação por meio de uma estratégia de sobreposição de lote duplo, o que significa que, ao processar um lote de solicitações, os custos de comunicação de outro lote podem ser mascarados pelo processo de cálculo, melhorando assim a taxa de transferência geral. No estágio de decodificação, em resposta ao desequilíbrio de tempo em diferentes estágios de execução, a DeepSeek adota um método de pipeline de cinco níveis para obter uma sobreposição perfeita de comunicação e computação.
Para lidar com a desigualdade de carga causada pelo paralelismo em larga escala, a equipe Deepseek criou vários balanceadores de carga. Esses balanceadores de carga estão comprometidos em equilibrar as cargas de computação e comunicação em todas as GPUs, evitando uma única GPU se tornar um gargalo de desempenho devido a operações de sobrecarga e garantir a utilização eficiente dos recursos.
Em termos de desempenho do serviço, o serviço de inferência DeepSeek-V3/R1 é executado no H800GPU, usando formatos de multiplicação e transmissão de matrizes consistentes com o processo de treinamento. De acordo com as últimas estatísticas, o sistema processou 608 bilhões de tokens de entrada nas últimas 24 horas, com a maior taxa de ocupação de nó de 278 e a taxa média diária de ocupação de 226,75, e o desempenho geral do serviço é bom.
Através de design arquitetônico eficiente e gerenciamento de carga inteligente, o sistema de inferência Deepseek-V3/R1 não apenas melhora o desempenho de inferência de modelos de inteligência artificial, mas também fornece um forte suporte à infraestrutura para futuras pesquisas e aplicações da AGI.
Projeto: https://github.com/deepseek-ai/open-infra-index/blob/main/202502opensourceweek/day_6_one_more_thing_deepseekv3r1_inference_system_overview.md
Pontos -chave:
O sistema de inferência Deepseek-V3/R1 atinge maior taxa de transferência e menor latência através da tecnologia paralela especialista em nós.
A estratégia de sobreposição de lote duplo e os pipelines de cinco níveis são adotados para melhorar a eficiência da computação e otimizar o processo de comunicação.
Configure uma variedade de balanceadores de carga para garantir a utilização eficiente dos recursos entre as GPUs e evitar gargalos de desempenho.