Tencent недавно выпустила Xingmai Network 2.0 — обновление, которое значительно повышает эффективность обучения крупномасштабных моделей искусственного интеллекта. Компания добилась революционного прогресса в масштабировании сети, производительности оборудования, протоколах связи и диагностике неисправностей, заложив прочную основу для крупномасштабного обучения моделей ИИ в будущем. Это обновление не только поддерживает сеть на 100 000 карт в одном кластере, но также удваивает емкость коммутатора и скорость кремниевого оптического модуля с точки зрения аппаратного обеспечения. Оно также оснащено сетевыми картами собственной разработки, а пропускная способность связи достигает промышленного уровня. -ведущий уровень. Что еще более примечательно, так это то, что применение нового протокола TiTa2.0 и библиотеки коллективных коммуникаций TCCL2.0 повысило эффективность связи на 60%, а эффективность обучения больших моделей — на 20%.
Понятно, что с точки зрения масштаба сети Xingmai Network 2.0 поддерживает один кластер из 100 000 карт, обеспечивая надежную инфраструктурную поддержку для крупномасштабного обучения ИИ. Это расширение закладывает основу для более масштабного обучения моделей ИИ в будущем.

Что касается обновления оборудования, емкость коммутаторов собственной разработки Tencent была увеличена с 25,6 Т до 51,2 Т, что удвоило емкость. В то же время скорость кремниевых оптических модулей собственной разработки была повышена с 200G до 400G, а также увеличилась вдвое. Новая версия также оснащена сетевой картой вычислительной мощности собственной разработки, которая увеличивает пропускную способность всей машины до 3,2 Тл, занимая первое место в отрасли. Эти обновления оборудования обеспечивают прочную основу для значительного улучшения производительности сети.
Что касается протоколов связи, Tencent запустила новый протокол TiTa2.0, а место его развертывания было перенесено с коммутаторов на сетевые карты. В то же время алгоритм перегрузки также был обновлен до алгоритма активного контроля перегрузки. Эти оптимизации повысили эффективность коммуникации на 30 % и эффективность обучения больших моделей на 10 %.
Кроме того, Tencent также выпустила новую высокопроизводительную библиотеку коллективного общения TCCL2.0. Эта библиотека использует технологию гетерогенной параллельной связи NVLINK+NET для реализации параллельной передачи данных. В сочетании с адаптивным алгоритмом Auto-Tune Network Expert система может автоматически настраивать различные параметры в зависимости от различий в модели, размере сети, алгоритме модели и т. д. Это обновление повышает производительность связи еще на 30 % и увеличивает эффективность обучения больших моделей еще на 10 %.
Стоит отметить, что суперпозиция эффектов обновления TiTa и TCCL увеличила эффективность связи сети Синмай в общей сложности на 60%, а общая эффективность обучения большой модели увеличилась на 20%. Такое значительное улучшение производительности значительно ускорит процесс обучения моделей ИИ и предоставит исследователям и разработчикам более эффективную рабочую среду.
Обновление Xingmai Network 2.0 демонстрирует лидирующие позиции Tencent в области сетевых технологий во многих аспектах. Значительное улучшение производительности окажет положительное влияние на развитие области искусственного интеллекта и будет способствовать более масштабному обучению и развитию. сложные модели искусственного интеллекта. Это знаменует собой важный шаг для Tencent в создании высокопроизводительной инфраструктуры искусственного интеллекта.