Lenovo Wentian WA7785A G3 Server Rekaman! Menjalankan 671B Stand-Alone Deepseek Model Besar Throughput hingga 6708Token/S! - Artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-05-20 17:50:02

2025 Binance Direct

Lenovo hari ini mengumumkan bahwa server pelatihan AMD AI Big Model yang pertama, Lenovo Wo7785a G3, mencapai throughput ekstrem hingga 6708Token/s ketika menggunakan 671B (versi penuh-blooded) Deepseek Big Model pada mesin yang dicatat, sekali lagi memecah kinerja server tunggal yang menjalankan single-scale.

Menurut laporan, terobosan kinerja ini disebabkan oleh dukungan kuat platform komputasi cerdas heterogen Lenovo Wanquan. Lenovo terus-menerus mengoptimalkan seluruh proses model besar dari pra-pelatihan, pasca-pelatihan hingga inferensi melalui serangkaian cara teknis inovatif seperti optimasi akses memori, optimasi memori video, arsitektur interkoneksi penuh PCIE5.0 yang inovatif, dan operator optimal yang terpilih dalam kerangka kerja SGLANG. Hasil tes aktual menunjukkan bahwa pada server Lenovo Wickian WA7785A G3 yang menggunakan model besar Deepseek671b, throughput tertinggi mencapai 6708Token/s yang mencengangkan.

GPU 芯片 (5)

Saat mensimulasikan skenario percakapan masalah (panjang urutan konteks 128/1k), server dapat mendukung hingga 158 angka konkurensi, TPOT (waktu per token output) adalah 93 milidetik, TTFT (waktu ke token pertama) adalah 2,01 detik; Saat mensimulasikan skenario pembuatan kode (panjang urutan konteks 512/4K), angka konkurensi dapat mencapai 140, TPOT adalah 100 milidetik, dan TTFT adalah 5,53 detik. Lenovo mengatakan bahwa kinerja ini berarti bahwa server Lenovo Wentian WA7785A G3 tunggal dapat mendukung penggunaan perusahaan yang normal dengan skala 1.500 orang. Ini adalah lompatan besar lain dalam kinerja inferensi dari model skala besar yang digunakan oleh server Lenovo Wickian WA7780G3, setelah versi penuh darah dari model besar Deepseek digunakan oleh model besar deepseek mesin tunggal.

Lenovo menekankan bahwa terobosan teknologi ini adalah hasil dari desain bersama, optimasi kolaboratif, dan implementasi bersama dari Lenovo China Infrastructure Business Group, Lenovo Research Institute ICI Laboratory dan AMD. Pada saat yang sama, ini bukan hasil akhir. Lenovo dan AMD masih terus mengeksplorasi metode baru tuning mendalam untuk mencapai terobosan kinerja yang lebih tinggi.