腾讯云发布了星脉网络2.0,这是一款针对大模型训练而设计的升级版网络,旨在解决大型模型训练中通信效率低下的问题。旧版星脉网络中,计算结果同步通信时间占比超过50%,严重影响训练效率。新版本通过多项技术升级,显着提升了网络性能和可靠性,为大规模模型训练提供了更强大的支持。

1. 支持单集群10万卡组网,规模翻倍,网络通信效率提升60%,大模型训练效率提升20%,故障定位从天级降低至分钟级。
2. 自研交换机、光模块、网卡等网络设备升级,基础设施更加可靠,支持单集群10万卡GPU 以上的规模。
3. 全新通信协议TiTa2.0部署在网卡上,拥塞算法升级为主动拥塞控制算法,通信效率提升30%,大模型训练效率提升10%。
4. 高性能集合通信库TCCL2.0采用NVLINK+NET 异构并行通信,实现数据的并行传输,同时具备Auto-Tune Network Expert 自适应算法,提升通信性能30%,大模型训练效率提升10%。
5. 新增腾讯独家技术灵境仿真平台,实现全面监控集群网络,精确定位GPU 节点问题,将万卡级训练故障定位时间从天级降低至分钟级。
通过这些升级,星脉网络的通信效率提升60%,大模型训练效率提升20%,故障定位精准度也得到了提升。这些改进将有助于提高大型模型训练的效率和性能,让昂贵的GPU 资源得到更充分的利用。
星脉网络2.0的升级为大模型训练带来了显着的效率提升和可靠性增强,其在网络设备、通信协议和故障定位等方面的改进,将推动大模型技术的发展,并为用户带来更经济高效的AI训练体验。