Aujourd'hui, Deepseek, une entreprise de premier plan dans le domaine de l'intelligence artificielle en Chine, a officiellement annoncé le quatrième jour de son plan open source - des stratégies de parallélisme optimisées. Les technologies de base publiées cette fois comprennent l'algorithme parallèle à deux voies dualpipe, l'équilibreur de charge parallèle expert EPLB et l'optimisation profonde du mécanisme de chevauchement de la communication informatique. Ces mises à niveau technologiques ciblent directement les problèmes clés dans la formation des modèles de langage à grande échelle, fournissant une nouvelle solution pour le fonctionnement efficace des clusters de niveau Super Wanka.

Dualpipe est l'un des noyau de cette mise à niveau de la technologie, conçu spécifiquement pour l'architecture V3 / R1. Grâce à un pipeline de flux de données bidirectionnel innovant, Dualpipe réalise un chevauchement élevé entre l'informatique et la communication. Par rapport aux pipelines unidirectionnels traditionnels, cette technologie améliore considérablement le débit informatique, en particulier adapté à la formation modèle avec une échelle de 100 à 100 milliards de paramètres. Selon la base de code GitHub, DualPipe effectue un calcul vers l'avant en informatique de manière synchrone dans l'étape de rétro-propagation grâce à un mécanisme de planification intelligent, ce qui augmente l'utilisation du matériel d'environ 30%.
La technologie EPLB vise le problème des "experts chauds" dans la formation des modèles d'experts hybrides (MOE), et réalise pour la première fois l'équilibrage de charge dynamique des experts parallèle. Les méthodes traditionnelles conduisent souvent à la surcharge de certaines cartes de calcul en raison de l'attribution inégale des tâches expertes. Grâce à une surveillance en temps réel et à une allocation adaptative, l'EPLB augmente le taux d'utilisation global de l'amas de niveau Wanka à plus de 92%, évitant efficacement les ressources inacies.
De plus, Deepseek a également construit un modèle d'efficacité spatio-temporelle du parallélisme 3D (données / pipeline / parallélisme tensor) pour la première fois en fonction de l'outil d'analyse de chevauchement de communication de l'architecture V3 / R1. Grâce à des ensembles de données analytiques open source, les développeurs peuvent localiser avec précision les nœuds conflictuels entre l'informatique et la communication, fournissant une référence de réglage pour la formation de modèle hyperscale. Selon les tests, cette optimisation réduit le temps de formation de bout en bout d'environ 15%.
Cette version technologique a attiré une grande attention dans l'industrie. Les experts ont souligné que l'innovation combinée de Dualpipe et de l'EPLB répond directement aux deux défis majeurs de la formation actuelle à grande échelle: premièrement, avec la croissance exponentielle de l'échelle du modèle, le goulot d'étranglement de l'évolutivité des stratégies parallèles traditionnelles devient de plus en plus importante; Deuxièmement, la popularité des modèles d'experts hybrides a fait de l'équilibrage de charge dynamique un besoin de base. Le directeur technique d'un fabricant de cloud computing a déclaré: "Ces outils réduiront considérablement le seuil matériel pour la formation modèle de centaines de milliards de dollars et devraient réduire le coût de formation de 20% à 30%.
Le CTO de Deepseek a souligné dans le document technique que la stratégie open source a été vérifiée dans sa formation interne de plusieurs modèles de paramètres de 100 milliards et continuera d'itérer et d'optimiser à l'avenir. À l'heure actuelle, ces trois technologies sont open source sur GitHub, prenant en charge les développeurs pour les personnaliser et les appliquer à différents environnements matériels.
Alors que la compétition mondiale de l'IA entre dans la phase de «victoire à l'échelle», Deepseek a ouvert la source de technologies clés pendant quatre jours consécutifs, démontre non seulement la force technique des sociétés d'IA chinois, mais fournit également à l'industrie une infrastructure réutilisable. Cette innovation technologique axée sur la «collaboration ouverte» peut remodeler l'écosystème industriel de la formation de gros modèles.