Con el rápido desarrollo de la tecnología de inteligencia artificial, el equipo de Deepseek ha lanzado su nuevo sistema de inferencia Deepseek-V3/R1. Este sistema tiene como objetivo impulsar el desarrollo eficiente de la inteligencia artificial general (AGI) a través de un mayor rendimiento y un menor latencia. Para lograr esto, Deepseek adopta la tecnología de paralelismo experto (EP), mejora significativamente la eficiencia informática de GPU y escala el procesamiento por lotes al tiempo que reduce la latencia.
El núcleo de Deepseek-V3/R1 es su escasez extremadamente alta, con solo 8 de 256 expertos activados en cada capa del modelo, por lo que se requiere un tamaño de lote muy grande para garantizar que cada experto tenga suficiente potencia de procesamiento. La arquitectura de este sistema adopta el método de desagregación de di-decodios de preflamiento y adopta diferentes grados de estrategias de paralelización durante las etapas de prefiesta y decodificación.
Durante la fase previa al relleno, el sistema oculta los costos de comunicación a través de una estrategia de superposición de doble lote, lo que significa que al procesar un lote de solicitudes, los costos de comunicación de otro lote pueden enmascararse mediante el proceso de cálculo, mejorando así el rendimiento general. En la etapa de decodificación, en respuesta al desequilibrio del tiempo en diferentes etapas de ejecución, Deepseek adopta un método de tubería de cinco niveles para lograr una comunicación sin problemas y una superposición de computación.
Para hacer frente a la desigualdad de carga causada por el paralelismo a gran escala, el equipo de Deepseek ha establecido múltiples equilibradores de carga. Estos equilibradores de carga están comprometidos a equilibrar las cargas de computación y comunicación en todas las GPU, evitando que una sola GPU se convierta en un cuello de botella de rendimiento debido a las operaciones de sobrecarga y garantizando la utilización eficiente de los recursos.
En términos de rendimiento del servicio, el servicio de inferencia Deepseek-V3/R1 se ejecuta en el H800GPU, utilizando formatos de multiplicación y transmisión de matriz consistentes con el proceso de capacitación. Según las últimas estadísticas, el sistema ha procesado 608 mil millones de tokens de entrada en las últimas 24 horas, con la tasa de ocupación de nodos más alta de 278 y la tasa promedio de ocupación diaria de 226.75, y el rendimiento general del servicio es bueno.
A través del diseño arquitectónico eficiente y la gestión de carga inteligente, el sistema de inferencia Deepseek-V3/R1 no solo mejora el rendimiento de inferencia de los modelos de inteligencia artificial, sino que también proporciona un fuerte apoyo de infraestructura para futuras investigaciones y aplicaciones AGI.
Proyecto: https://github.com/deepseek-ai/open-infra-index/blob/main/202502opensaurceweek/day_6_one_more_thing_deepseekv3r1_inference_system_overview.md
Puntos clave:
El sistema de inferencia Deepseek-V3/R1 logra un mayor rendimiento y un menor latencia a través de la tecnología paralela experta en nodos cruzados.
La estrategia de superposición de doble lotes y las tuberías de cinco niveles se adoptan para mejorar la eficiencia informática y optimizar el proceso de comunicación.
Establezca una variedad de equilibradores de carga para garantizar la utilización eficiente de los recursos entre las GPU y evitar los cuellos de botella de rendimiento.