Tencent Cloud telah merilis Xingmai Network 2.0, versi jaringan yang ditingkatkan yang dirancang untuk pelatihan model besar, yang bertujuan untuk memecahkan masalah rendahnya efisiensi komunikasi dalam pelatihan model besar. Di jaringan Xingmai versi lama, waktu untuk sinkronisasi hasil penghitungan mencapai lebih dari 50%, sehingga sangat memengaruhi efisiensi pelatihan. Versi baru ini telah meningkatkan kinerja dan keandalan jaringan secara signifikan melalui berbagai peningkatan teknis, memberikan dukungan yang lebih kuat untuk pelatihan model skala besar.

1. Mendukung jaringan 100.000 kartu dalam satu cluster, menggandakan skala, meningkatkan efisiensi komunikasi jaringan sebesar 60%, meningkatkan efisiensi pelatihan model besar sebesar 20%, dan mengurangi lokasi kesalahan dari hitungan hari menjadi menit.
2. Sakelar, modul optik, kartu jaringan, dan peralatan jaringan lainnya yang dikembangkan sendiri ditingkatkan agar infrastruktur lebih andal dan mendukung satu cluster dengan skala lebih dari 100.000 kartu GPU.
3. Protokol komunikasi baru TiTa2.0 diterapkan pada kartu jaringan, dan algoritma kemacetan ditingkatkan menjadi algoritma kontrol kemacetan aktif meningkat sebesar 30%, dan efisiensi pelatihan model besar meningkat sebesar 10%.
4. Pustaka komunikasi kolektif berkinerja tinggi TCCL2.0 menggunakan komunikasi paralel heterogen NVLINK+NET untuk mewujudkan transmisi data paralel. Ia juga memiliki algoritma adaptif Auto-Tune Network Expert, yang meningkatkan kinerja komunikasi sebesar 30% dan efisiensi pelatihan model besar 10%.
5. Platform simulasi Lingjing teknologi eksklusif Tencent yang baru ditambahkan dapat sepenuhnya memantau jaringan cluster, menemukan masalah node GPU secara akurat, dan mengurangi waktu untuk menemukan kesalahan pelatihan tingkat 10.000 ka dari hitungan hari menjadi menit.
Melalui peningkatan ini, efisiensi komunikasi jaringan Xingmai telah meningkat sebesar 60%, efisiensi pelatihan model besar telah meningkat sebesar 20%, dan akurasi lokasi kesalahan juga telah ditingkatkan. Peningkatan ini akan membantu meningkatkan efisiensi dan kinerja pelatihan model besar, sehingga sumber daya GPU yang mahal dapat dimanfaatkan secara lebih maksimal.
Peningkatan Jaringan Xingmai 2.0 telah membawa peningkatan efisiensi yang signifikan dan peningkatan keandalan pada pelatihan model besar. Peningkatannya pada peralatan jaringan, protokol komunikasi, dan lokasi kesalahan akan mendorong pengembangan teknologi model besar dan membawa manfaat bagi pengguna. pengalaman pelatihan AI yang efektif.