Tencent merilis Xingmai Network 2.0 untuk meningkatkan efisiensi pelatihan model besar AI secara signifikan

Penulis：Eve Cole Waktu Pembaruan：2025-03-01 06:00:02

Tencent baru-baru ini merilis Xingmai Network 2.0, peningkatan yang secara signifikan meningkatkan kinerja pelatihan model kecerdasan buatan skala besar. Hal ini telah membuat kemajuan terobosan dalam skala jaringan, kinerja perangkat keras, protokol komunikasi dan diagnosis kesalahan, meletakkan dasar yang kuat untuk pelatihan model AI skala besar di masa depan. Peningkatan ini tidak hanya mendukung jaringan 100.000 kartu dalam satu cluster, tetapi juga menggandakan kapasitas switch dan kecepatan modul optik silikon dalam hal perangkat keras. Ia juga dilengkapi dengan kartu jaringan daya komputasi yang dikembangkan sendiri, dan bandwidth komunikasi menjangkau industri -tingkat terdepan. Yang lebih penting adalah penerapan protokol TiTa2.0 baru dan perpustakaan komunikasi kolektif TCCL2.0 telah meningkatkan efisiensi komunikasi sebesar 60% dan efisiensi pelatihan model besar sebesar 20%.

Dapat dipahami bahwa dalam hal skala jaringan, Xingmai Network 2.0 mendukung satu cluster yang terdiri dari 100.000 kartu, memberikan dukungan infrastruktur yang kuat untuk pelatihan AI skala besar. Perluasan ini meletakkan dasar bagi pelatihan model AI berskala lebih besar di masa depan.

互联网大数据2

Dalam hal peningkatan perangkat keras, kapasitas switch yang dikembangkan sendiri oleh Tencent telah ditingkatkan dari 25,6T menjadi 51,2T, sehingga menggandakan kapasitasnya. Pada saat yang sama, kecepatan modul optik silikon yang dikembangkan sendiri telah ditingkatkan dari 200G menjadi 400G, dan kecepatannya juga meningkat dua kali lipat. Versi baru ini juga dilengkapi dengan kartu jaringan daya komputasi yang dikembangkan sendiri, yang menjadikan bandwidth komunikasi seluruh mesin menjadi 3,2T, menempati peringkat pertama di industri. Peningkatan perangkat keras ini memberikan landasan yang kuat untuk peningkatan signifikan dalam kinerja jaringan.

Dalam hal protokol komunikasi, Tencent telah meluncurkan protokol TiTa2.0 baru, dan lokasi penerapannya telah dipindahkan dari sakelar ke kartu jaringan. Pada saat yang sama, algoritma kemacetan juga telah ditingkatkan menjadi algoritma kontrol kemacetan aktif. Pengoptimalan ini telah meningkatkan efisiensi komunikasi sebesar 30% dan efisiensi pelatihan model besar sebesar 10%.

Selain itu, Tencent juga meluncurkan perpustakaan komunikasi kolektif berkinerja tinggi baru TCCL2.0. Perpustakaan ini menggunakan teknologi komunikasi paralel heterogen NVLINK+NET untuk mewujudkan transmisi data paralel. Ditambah dengan algoritma adaptif Auto-Tune Network Expert, sistem dapat secara otomatis menyesuaikan berbagai parameter berdasarkan perbedaan model, ukuran jaringan, algoritma model, dll. Peningkatan ini meningkatkan kinerja komunikasi sebesar 30% lagi dan meningkatkan efisiensi pelatihan model besar sebesar tambahan 10%.

Perlu dicatat bahwa superposisi efek peningkatan TiTa dan TCCL telah meningkatkan efisiensi komunikasi jaringan Xingmai sebesar total 60%, dan efisiensi pelatihan model besar secara keseluruhan telah meningkat sebesar 20%. Peningkatan kinerja yang signifikan ini akan sangat mempercepat proses pelatihan model AI dan memberikan lingkungan kerja yang lebih efisien bagi para peneliti dan pengembang.

Peningkatan Xingmai Network 2.0 menunjukkan posisi terdepan Tencent di bidang teknologi jaringan dalam banyak aspek. Peningkatan kinerja yang signifikan akan berdampak positif pada pengembangan bidang kecerdasan buatan dan mendorong pelatihan dan pengembangan dalam skala yang lebih besar dan lebih banyak lagi. aplikasi AI yang kompleks. Hal ini menandai langkah penting bagi Tencent dalam membangun infrastruktur AI berkinerja tinggi.