Tencent는 최근 대규모 인공 지능 모델의 훈련 성능을 크게 향상시키는 업그레이드인 Xingmai Network 2.0을 출시했습니다. 네트워크 규모, 하드웨어 성능, 통신 프로토콜 및 결함 진단 분야에서 획기적인 발전을 이루어 향후 대규모 AI 모델 교육을 위한 견고한 기반을 마련했습니다. 이번 업그레이드는 단일 클러스터에서 100,000개의 카드 네트워킹을 지원할 뿐만 아니라 하드웨어 측면에서 스위치 용량과 실리콘 광 모듈 속도를 두 배로 늘리며 자체 개발한 컴퓨팅 성능 네트워크 카드를 탑재하고 통신 대역폭이 업계에 도달합니다. -선도적인 수준. 더욱 주목할 만한 점은 새로운 TiTa2.0 프로토콜과 TCCL2.0 집단통신 라이브러리를 적용해 통신 효율성이 60%, 대형 모델 훈련 효율성이 20% 증가했다는 점이다.
네트워크 규모 측면에서 Xingmai Network 2.0은 100,000개의 카드로 구성된 단일 클러스터를 지원하여 대규모 AI 훈련을 위한 강력한 인프라 지원을 제공하는 것으로 이해됩니다. 이번 확장은 향후 대규모 AI 모델 훈련을 위한 기반을 마련합니다.

하드웨어 업그레이드 측면에서는 텐센트가 자체 개발한 스위치의 용량이 25.6T에서 51.2T로 늘어나 용량이 두 배로 늘어났다. 이와 동시에 자체 개발한 실리콘 광모듈의 속도도 200G에서 400G로 업그레이드됐으며 속도도 2배로 높아졌다. 새 버전에는 자체 개발한 컴퓨팅 성능 네트워크 카드도 장착되어 전체 기계의 통신 대역폭을 3.2T로 끌어올려 업계 1위를 차지했습니다. 이러한 하드웨어 업그레이드는 네트워크 성능을 크게 향상시킬 수 있는 견고한 기반을 제공합니다.
통신 프로토콜 측면에서 Tencent는 새로운 TiTa2.0 프로토콜을 출시했으며 배포 위치는 스위치에서 네트워크 카드로 이동되었습니다. 동시에 혼잡 알고리즘도 능동 혼잡 제어 알고리즘으로 업그레이드되었습니다. 이러한 최적화를 통해 통신 효율성은 30%, 대규모 모델 훈련 효율성은 10% 향상되었습니다.
또한 Tencent는 새로운 고성능 집단 통신 라이브러리 TCCL2.0도 출시했습니다. 이 라이브러리는 NVLINK+NET 이종 병렬 통신 기술을 사용하여 데이터의 병렬 전송을 실현합니다. Auto-Tune Network Expert 적응형 알고리즘과 결합된 시스템은 모델, 네트워크 크기, 모델 알고리즘 등의 차이를 기반으로 다양한 매개변수를 자동으로 조정할 수 있습니다. 이번 업그레이드로 통신 성능이 30% 더 향상되고 대규모 모델 훈련 효율성이 10% 더 향상됩니다.
TiTa와 TCCL의 업그레이드 효과가 중첩되어 Xingmai 네트워크의 통신 효율성이 총 60% 증가했으며 전체 대형 모델 훈련 효율성이 20% 증가했다는 점은 주목할 가치가 있습니다. 이러한 획기적인 성능 향상은 AI 모델의 훈련 프로세스를 크게 가속화하고 연구원과 개발자에게 보다 효율적인 작업 환경을 제공할 것입니다.
Xingmai Network 2.0의 업그레이드는 여러 측면에서 네트워크 기술 분야에서 Tencent의 선도적인 위치를 보여줍니다. 상당한 성능 향상은 인공 지능 분야의 발전에 긍정적인 영향을 미치고 대규모 이상의 교육 및 개발을 촉진할 것입니다. 복잡한 AI 모델. 이는 Tencent가 고성능 AI 인프라를 구축하는 데 있어 중요한 단계입니다.