Hari ini, Deepseek, sebuah perusahaan terkemuka di bidang intelijen buatan di Cina, secara resmi mengumumkan hari keempat dari rencana sumber terbuka - strategi paralelisme yang dioptimalkan. Teknologi inti yang dirilis kali ini termasuk dualpipe algoritma paralel pipa dua arah, EPLB balancer beban paralel ahli, dan optimalisasi mendalam dari mekanisme tumpang tindih komputasi-komunikasi. Peningkatan teknologi ini secara langsung menargetkan isu-isu utama dalam pelatihan model bahasa skala besar, memberikan solusi baru untuk operasi yang efisien dari cluster tingkat Wanka.

Dualpipe adalah salah satu inti dari peningkatan teknologi ini, yang dirancang khusus untuk arsitektur V3/R1. Melalui pipa aliran data dua arah yang inovatif, DualPipe mencapai tumpang tindih yang tinggi antara komputasi dan komunikasi. Dibandingkan dengan jalur pipa satu arah tradisional, teknologi ini secara signifikan meningkatkan throughput komputasi, terutama cocok untuk pelatihan model dengan skala 100 miliar hingga 100 miliar parameter. Menurut basis kode GitHub, DualPipe melakukan komputasi ke depan secara serempak pada tahap backpropagation melalui mekanisme penjadwalan yang cerdas, yang meningkatkan pemanfaatan perangkat keras sekitar 30%.
Teknologi EPLB bertujuan pada pelatihan model "ahli panas" dalam pelatihan model Hybrid Expert (MOE), dan untuk pertama kalinya menyadari penyeimbangan beban dinamis dari para ahli paralel. Metode tradisional sering menyebabkan kelebihan beban beberapa kartu perhitungan karena alokasi tugas ahli yang tidak merata. Melalui pemantauan real-time dan alokasi adaptif, EPLB meningkatkan tingkat pemanfaatan keseluruhan cluster level Wanka menjadi lebih dari 92%, secara efektif menghindari sumber daya idle.
Selain itu, Deepseek juga membangun model efisiensi spatio-temporal paralelisme 3D (Paralelisme Data/Pipeline/Tensor) untuk pertama kalinya berdasarkan pada alat analisis tumpang tindih komunikasi arsitektur V3/R1. Melalui set data analitik open source, pengembang dapat secara akurat menemukan node yang bertentangan antara komputasi dan komunikasi, memberikan tolok ukur tuning untuk pelatihan model hyperscale. Menurut tes, optimasi ini mengurangi waktu pelatihan ujung ke ujung sekitar 15%.
Rilis teknologi ini telah menarik perhatian kuat di industri ini. Para ahli menunjukkan bahwa inovasi gabungan Dualpipe dan EPLB secara langsung menanggapi dua tantangan utama pelatihan skala besar saat ini: pertama, dengan pertumbuhan skala model yang eksponensial, hambatan skalabilitas strategi paralel tradisional menjadi semakin menonjol; Kedua, popularitas model ahli hibrida telah membuat beban dinamis menyeimbangkan kebutuhan dasar. Direktur teknis produsen komputasi awan berkomentar: "Alat-alat ini akan secara signifikan mengurangi ambang perangkat keras untuk pelatihan model ratusan miliar dolar, dan diharapkan dapat mengurangi biaya pelatihan sebesar 20%-30%.
CTO Deepseek menekankan dalam dokumen teknis bahwa strategi open source telah diverifikasi dalam pelatihan internalnya dari beberapa model parameter 100 miliar dan akan terus mengulang dan mengoptimalkan di masa depan. Saat ini, ketiga teknologi ini adalah open source di GitHub, mendukung pengembang untuk menyesuaikan dan menerapkannya ke lingkungan perangkat keras yang berbeda.
Ketika kompetisi AI global memasuki tahap "Scaling Victory", Deepseek telah membuka sumber teknologi utama selama empat hari berturut -turut, tidak hanya menunjukkan kekuatan teknis perusahaan AI Cina, tetapi juga memberikan industri infrastruktur yang dapat digunakan kembali. Inovasi teknologi ini didorong oleh "kolaborasi terbuka" dapat membentuk kembali ekosistem industri pelatihan model besar.