Heute kündigte Deepseek, ein führendes Unternehmen auf dem Gebiet der künstlichen Intelligenz in China, offiziell den vierten Tag seines Open -Source -Plans an - optimierte Parallelitätsstrategien. Zu den diesmal veröffentlichten Kerntechnologien gehören die Zwei-Wege-Pipeline-Parallelalgorithmus Dualpipe, der Experte Parallel Last Balancer EPLB, und die tiefe Optimierung des Überlappungsmechanismus für Computerkommunikationen. Diese technologischen Upgrades richten sich direkt auf wichtige Probleme im großflächigen Sprachmodelltraining ab und bieten eine neue Lösung für den effizienten Betrieb von Cluster von Super Wanka-Level.

DualPipe ist einer der Kern dieses Technologie -Upgrades, das speziell für die V3/R1 -Architektur entwickelt wurde. Durch eine innovative Zwei-Wege-Datenflusspipeline erreicht Dualpipe eine hohe Überlappung zwischen Computer und Kommunikation. Im Vergleich zu herkömmlichen Einweg-Pipelines verbessert diese Technologie den Rechendurchsatz erheblich, insbesondere für das Modelltraining mit einer Skala von 100 bis 100 Milliarden Parametern. Laut der GitHub -Code -Basis führt DualPipe durch einen intelligenten Zeitplanmechanismus, der die Hardwareauslastung um etwa 30%erhöht, synchron vorwärts in der Backpropagation -Phase durch.
Die EPLB -Technologie zielt auf das Problem "Hot Experts" im Modell der Hybrid -Experten (MOE) ab und erkennt erstmals dynamische Lastausgleich von Experten parallel. Traditionelle Methoden führen häufig zu einer Überlastung einiger Berechnungskarten aufgrund einer ungleichmäßigen Zuweisung von Expertenaufgaben. Durch die Überwachung von Echtzeit und die adaptive Zuordnung erhöht EPLB die Gesamtnutzungsrate des Cluster auf Wanka-Ebene auf mehr als 92%und vermeidet effektiv Leerlaufressourcen.
Darüber hinaus baute Deepseek zum ersten Mal ein räumlich-zeitliches Effizienzmodell der 3D-Parallelität (Daten/Pipeline/Tensor-Parallelität) auf, basierend auf dem Tool für die Kommunikationsüberlappungsanalyse der V3/R1-Architektur. Durch Open -Source -analytische Datensätze können Entwickler widersprüchliche Knoten zwischen Computer und Kommunikation genau lokalisieren und einen Tuning -Benchmark für das Hyperscale -Modelltraining bieten. Laut Tests verkürzt diese Optimierung die End-to-End-Trainingszeit um etwa 15%.
Diese technologische Veröffentlichung hat in der Branche starke Aufmerksamkeit erregt. Experten wiesen darauf hin, dass die kombinierte Innovation von Dualpipe und EPLB direkt auf die beiden großen Herausforderungen des aktuellen großflächigen Trainings reagiert: Erstens mit dem exponentiellen Wachstum der Modellskala wird der Skalierbarkeitsgpässe traditioneller paralleler Strategien immer deutlicher. Zweitens hat die Popularität von Hybrid -Expertenmodellen dynamische Lastausgleiche zu einem grundlegenden Bedarf gemacht. Der technische Direktor eines Cloud-Computing-Herstellers kommentierte: "Diese Tools werden den Hardwareschwellenwert für das Modelltraining von Hunderten von Milliarden Dollar erheblich verringern und die Schulungskosten um 20%bis 30%senken.
Deepseeks CTO betonte in dem technischen Dokument, dass die Open -Source -Strategie in ihrer internen Ausbildung von mehreren 100 Milliarden Parametermodellen überprüft wurde und in Zukunft weiterhin iterieren und optimieren wird. Gegenwärtig sind diese drei Technologien Open Source on Github und unterstützen Entwickler, um sie an verschiedene Hardware -Umgebungen anzupassen und anzuwenden.
Als der globale KI -Wettbewerb in die "skalierende Sieges" -Püche eintritt, hat Deepseek an vier aufeinanderfolgenden Tagen die Quelle für Schlüsseltechnologien eröffnet und nicht nur die technische Stärke chinesischer KI -Unternehmen demonstriert, sondern der Branche auch eine wiederverwendbare Infrastruktur bietet. Diese technologische Innovation, die von "Open Collaboration" angetrieben wird, kann das industrielle Ökosystem des Big Model Training neu verändern.