Dengan perkembangan cepat teknologi kecerdasan buatan, tim Deepseek telah meluncurkan sistem inferensi Deepseek-V3/R1 yang baru. Sistem ini bertujuan untuk mendorong pengembangan yang efisien dari Kecerdasan Buatan Umum (AGI) melalui throughput yang lebih tinggi dan latensi yang lebih rendah. Untuk mencapai hal ini, Deepseek mengadopsi teknologi Parallelism (EP), secara signifikan meningkatkan efisiensi komputasi GPU dan meningkatkan pemrosesan batch sambil mengurangi latensi.
Inti dari Deepseek-V3/R1 adalah sparsity yang sangat tinggi, dengan hanya 8 dari 256 ahli yang diaktifkan di setiap lapisan model, sehingga ukuran batch yang sangat besar diperlukan untuk memastikan bahwa setiap ahli memiliki daya pemrosesan yang cukup. Arsitektur sistem ini mengadopsi metode disagregasi prefill-decode, dan mengadopsi berbagai tingkat strategi paralelisasi selama tahap prefill dan decoding.
Selama fase pra-pengisian, sistem menyembunyikan biaya komunikasi melalui strategi tumpang tindih batch ganda, yang berarti bahwa ketika memproses satu batch permintaan, biaya komunikasi batch lain dapat ditutupi oleh proses perhitungan, sehingga meningkatkan throughput keseluruhan. Pada tahap decoding, sebagai tanggapan terhadap ketidakseimbangan waktu pada tahap eksekusi yang berbeda, Deepseek mengadopsi metode pipa lima tingkat untuk mencapai komunikasi yang mulus dan komputasi tumpang tindih.
Untuk mengatasi ketidaksetaraan beban yang disebabkan oleh paralelisme skala besar, tim Deepseek telah mendirikan beberapa penyeimbang beban. Penyeimbang beban ini berkomitmen untuk menyeimbangkan komputasi dan beban komunikasi di semua GPU, menghindari satu GPU menjadi hambatan kinerja karena operasi kelebihan beban, dan memastikan pemanfaatan sumber daya yang efisien.
Dalam hal kinerja layanan, layanan inferensi Deepseek-V3/R1 berjalan pada H800GPU, menggunakan format multiplikasi dan transmisi matriks yang konsisten dengan proses pelatihan. Menurut statistik terbaru, sistem ini telah memproses 608 miliar token input dalam 24 jam terakhir, dengan tingkat hunian simpul tertinggi 278, dan tingkat hunian harian rata -rata 226,75, dan kinerja layanan keseluruhan baik.
Melalui desain arsitektur yang efisien dan manajemen beban cerdas, sistem inferensi Deepseek-V3/R1 tidak hanya meningkatkan kinerja inferensi model kecerdasan buatan, tetapi juga memberikan dukungan infrastruktur yang kuat untuk penelitian dan aplikasi AGI di masa depan.
Proyek: https://github.com/deepseek-ai/open-infra-index/blob/main/202502opensourceEek/day_6_one_more_thing_deepseekv3r1_inference_system_overview.md
Poin -Poin Kunci:
Sistem inferensi Deepseek-V3/R1 mencapai throughput yang lebih tinggi dan latensi yang lebih rendah melalui teknologi paralel ahli lintas-simpul.
Strategi tumpang tindih dual-batch dan jaringan pipa lima tingkat diadopsi untuk meningkatkan efisiensi komputasi dan mengoptimalkan proses komunikasi.
Siapkan berbagai penyeimbang beban untuk memastikan pemanfaatan sumber daya yang efisien antara GPU dan hindari kemacetan kinerja.