Deepseek secara resmi membuka akun resmi di platform Zhihu dan merilis artikel teknis "Tinjauan Sistem Inferensi Deepseek-V3/R1". Artikel ini mengungkapkan detail optimasi dan informasi margin biaya dari sistem inferensi modelnya untuk pertama kalinya, menandai akhir yang sukses dari "Deepseek Open Source Week" yang sangat ditonton. Langkah ini tidak hanya menunjukkan akumulasi mendalam Deepseek di bidang teknologi, tetapi juga memberikan referensi yang berharga bagi industri.

Artikel ini memperkenalkan dua tujuan optimasi inti yang mendalam dari sistem inferensi Deepseek-V3/R1: "Throughput yang lebih besar dan latensi yang lebih rendah". Untuk mencapai tujuan-tujuan ini, Deepseek mengadopsi teknologi paralelisme (EP) Paralelisme Node Cross-Node Skala Besar, meskipun teknologi ini meningkatkan kompleksitas sistem. Artikel ini berfokus pada cara menggunakan teknologi EP untuk meningkatkan ukuran batch, menyembunyikan waktu transmisi, dan mencapai penyeimbangan beban, sehingga secara signifikan meningkatkan kinerja keseluruhan sistem.
Dari catatan khusus, Deepseek jarang mengungkapkan data margin biaya dan keuntungannya. Artikel yang diungkapkan: "Dengan asumsi biaya sewa GPU adalah US $ 2 per jam, total biaya adalah $ 87.072 per hari. Jika semua token dihitung sesuai dengan harga Deepseek R1, total pendapatan teoretis per hari. dan referensi untuk industri.