Tencent Cloud выпустила Xingmai Network 2.0, обновленную версию сети, предназначенную для обучения крупных моделей и призванную решить проблему низкой эффективности связи при обучении крупных моделей. В старой версии сети Xingmai время синхронизации результатов вычислений составляло более 50%, что серьёзно влияло на эффективность обучения. В новой версии значительно улучшена производительность и надежность сети за счет многочисленных технических обновлений, обеспечивающих более мощную поддержку крупномасштабного обучения моделей.

1. Поддерживает сеть на 100 000 карт в одном кластере, удваивая масштаб, повышая эффективность сетевой связи на 60 %, повышая эффективность обучения больших моделей на 20 % и сокращая время обнаружения неисправностей с дней до минут.
2. Коммутаторы, оптические модули, сетевые карты и другое сетевое оборудование собственной разработки модернизируются, чтобы сделать инфраструктуру более надежной и поддерживать единый кластер с масштабом более 100 000 графических карт.
3. На сетевой карте развернут новый протокол связи TiTa2.0, а алгоритм перегрузки обновлен до алгоритма активного контроля перегрузки. Эффективность связи увеличена на 30%, а эффективность обучения большой модели увеличена на 10%.
4. Высокопроизводительная библиотека коллективной связи TCCL2.0 использует гетерогенную параллельную связь NVLINK+NET для реализации параллельной передачи данных. Она также имеет адаптивный алгоритм Auto-Tune Network Expert, который повышает производительность связи на 30% и эффективность обучения больших моделей. 10%.
5. Недавно добавленная платформа моделирования Lingjing с эксклюзивной технологией Tencent позволяет полностью контролировать сеть кластера, точно определять проблемы узлов графического процессора и сокращать время обнаружения ошибок обучения на уровне 10 000 ка с дней до минут.
Благодаря этим обновлениям эффективность связи сети Синмай была увеличена на 60%, эффективность обучения большой модели увеличена на 20%, а также повышена точность определения места неисправности. Эти улучшения помогут повысить эффективность и производительность обучения больших моделей, позволяя более полно использовать дорогостоящие ресурсы графического процессора.
Обновление Xingmai Network 2.0 привело к значительному повышению эффективности и надежности обучения больших моделей. Улучшения в сетевом оборудовании, протоколах связи и обнаружении неисправностей будут способствовать развитию технологии больших моделей и принесут пользу пользователям. эффективный опыт обучения искусственному интеллекту.