Mit der raschen Entwicklung der Technologie für künstliche Intelligenz hat das Deepseek-Team sein neues Deepseek-V3/R1-Inferenzsystem gestartet. Dieses System zielt darauf ab, die effiziente Entwicklung allgemeiner künstlicher Intelligenz (AGI) durch einen höheren Durchsatz und eine geringere Latenz zu fördern. Um dies zu erreichen, nimmt Deepseek die Expertenparallelitätstechnologie (EP) ein, verbessert die Effizienz des GPU -Computers erheblich und skaliert die Batch -Verarbeitung und senkt gleichzeitig die Latenz.
Der Kern von Deepseek-V3/R1 ist die extrem hohe Sparsamkeit, wobei nur 8 von 256 Experten in jeder Schicht des Modells aktiviert werden. Daher ist eine sehr große Chargengröße erforderlich, um sicherzustellen, dass jeder Experte über ausreichende Verarbeitungsleistung verfügt. Die Architektur dieses Systems übernimmt die Disaggregationsmethode für Vorauszahlungen und übernimmt verschiedene Grad an Parallelisierungsstrategien während der Vorein- und Dekodierungsstadien.
Während der Vor-Filling-Phase verbirgt das System die Kommunikationskosten durch eine Doppel-Stapel-Überlappungsstrategie, was bedeutet, dass bei der Verarbeitung einer Anfragestatchs die Kommunikationskosten einer anderen Stapel durch den Berechnungsprozess maskiert werden können, wodurch der Gesamtdurchsatz verbessert wird. In der Dekodierungsstufe verwendet Deepseek als Reaktion auf das zeitliche Ungleichgewicht in verschiedenen Ausführungsstadien eine Pipeline-Methode mit fünf Ebenen, um eine nahtlose Kommunikation und eine Überlappung zu erreichen.
Um mit der durch groß angelegten Parallelität verursachten Lastungleichheit fertig zu werden, hat das Deepseek-Team mehrere Lastbalancer eingerichtet. Diese Lastbalancer verpflichten sich, Computer- und Kommunikationslasten in allen GPUs auszugleichen, wodurch eine einzelne GPU aufgrund von Überlastungsvorgängen zu einem Leistungsengpass wird und eine effiziente Nutzung von Ressourcen sicherstellt.
In Bezug auf die Serviceleistung läuft der Deepseek-V3/R1-Inferenzdienst auf dem H800GPU unter Verwendung der Matrix-Multiplikation und der Übertragungsformate im Einklang mit dem Trainingsprozess. Laut den neuesten Statistiken hat das System in den letzten 24 Stunden 608 Milliarden Eingangs -Token verarbeitet, mit der höchsten Noden -Belegungsrate von 278 und der durchschnittlichen täglichen Belegungsrate von 226,75, und die Gesamtdiensteleistung ist gut.
Durch effizientes architektonisches Design und intelligentes Lastmanagement verbessert das Inferenzsystem Deepseek-V3/R1 nicht nur die Inferenzleistung künstlicher Intelligenzmodelle, sondern bietet auch eine starke Unterstützung in der Infrastruktur für zukünftige AGI-Forschung und -anwendung.
Projekt: https://github.com/deepseek-ai/open-infra-index/blob/main/202502opensourceweek/day_6_one_thing_deepseekv3r1_inference_system_overview.md
Schlüsselpunkte:
Das Deepseek-V3/R1-Inferenzsystem erzielt durch die parallele Cross-Node-Experten-Parallel-Technologie einen höheren Durchsatz und eine geringere Latenz.
Die Dual-Batch-Überlappungsstrategie und fünfstufige Pipelines werden angewendet, um die Recheneffizienz zu verbessern und den Kommunikationsprozess zu optimieren.
Richten Sie eine Vielzahl von Lastbalancern ein, um eine effiziente Nutzung von Ressourcen zwischen GPUs zu gewährleisten und Leistungs Engpässe zu vermeiden.