Avec le développement rapide de la technologie de l'intelligence artificielle, l'équipe Deepseek a lancé son nouveau système d'inférence Deepseek-V3 / R1. Ce système vise à stimuler le développement efficace de l'intelligence artificielle générale (AGI) par un débit plus élevé et une latence plus faible. Pour y parvenir, Deepseek adopte la technologie du parallélisme des experts (EP), améliore considérablement l'efficacité informatique du GPU et augmente le traitement par lots tout en réduisant la latence.
Le cœur de Deepseek-V3 / R1 est sa rareté extrêmement élevée, avec seulement 8 des 256 experts activés dans chaque couche du modèle, donc une très grande taille de lot est nécessaire pour garantir que chaque expert a une puissance de traitement suffisante. L'architecture de ce système adopte la méthode de désagrégation des décodes de pré-décode et adopte différents degrés de stratégies de parallélisation au cours des étapes du préfilé et du décodage.
Pendant la phase de pré-remplissage, le système masque les coûts de communication grâce à une stratégie de chevauchement à double lot, ce qui signifie que lors du traitement d'un lot de demandes, les coûts de communication d'un autre lot peuvent être masqués par le processus de calcul, améliorant ainsi le débit global. Dans l'étape de décodage, en réponse au déséquilibre temporel à différentes étapes d'exécution, Deepseek adopte une méthode de pipeline à cinq niveaux pour réaliser une communication transparente et un chevauchement informatique.
Pour faire face à l'inégalité de charge causée par le parallélisme à grande échelle, l'équipe Deepseek a mis en place plusieurs équilibreurs de charge. Ces équilibreurs de charge sont déterminés à équilibrer les charges informatiques et de communication dans tous les GPU, en évitant un seul GPU de devenir un goulot d'étranglement des performances en raison des opérations de surcharge et en garantissant une utilisation efficace des ressources.
En termes de performances de service, le service d'inférence Deepseek-V3 / R1 s'exécute sur le H800GPU, en utilisant des formats de multiplication et de transmission matriciels cohérents avec le processus de formation. Selon les dernières statistiques, le système a traité 608 milliards de jetons d'entrée au cours des dernières 24 heures, avec le taux d'occupation du nœud le plus élevé de 278, et le taux d'occupation quotidien moyen de 226,75, et la performance globale du service est bonne.
Grâce à la conception architecturale efficace et à la gestion des charges intelligentes, le système d'inférence Deepseek-V3 / R1 améliore non seulement les performances d'inférence des modèles d'intelligence artificielle, mais fournit également un solide support d'infrastructure pour la recherche et l'application futures de l'AGI.
Projet: https://github.com/deepseek-ai/open-enfra-index/blob/main/202502OpenSourceweek/day_6_one_more_thing_deepseekv3r1_inference_system_overview.md
Points clés:
Le système d'inférence Deepseek-V3 / R1 atteint un débit plus élevé et une latence plus faible grâce à une technologie parallèle d'experts en nœud.
La stratégie de chevauchement à double lot et les pipelines à cinq niveaux sont adoptés pour améliorer l'efficacité de l'informatique et optimiser le processus de communication.
Configurez une variété d'équilibreurs de charge pour assurer une utilisation efficace des ressources entre les GPU et éviter les goulots d'étranglement de performance.