Téléchargement byteps - Téléchargement du code source byteps

byteps

Python

v0.2

Télécharger

Byteps

Byteps est un cadre de formation haute performance et général distribué. Il prend en charge TensorFlow, Keras, Pytorch et MXNET, et peut fonctionner sur le réseau TCP ou RDMA.

Byteps surpasse les cadres de formation distribués open source existants par une grande marge. Par exemple, lors de l'entraînement Bert-Large, les byteps peuvent atteindre une efficacité de mise à l'échelle de ~ 90% avec 256 GPU (voir ci-dessous), ce qui est beaucoup plus élevé que Horovod + NCCL. Dans certains scénarios, les byteps peuvent doubler la vitesse d'entraînement par rapport à Horovod + NCCL.

Nouvelles

Le papier byteps a été accepté à Osdi'20. Le code pour reproduire l'évaluation de bout en bout est disponible ici.
Support Compression du gradient.
v0.2.4
- Corrigez le problème de compatibilité avec les keras autonomes TF2 +
- Ajouter la prise en charge de Tensorflow.keras
- Améliorer la robustesse de la diffusion
v0.2.3
- Ajouter le module DistributedDataparallel pour Pytorch
- Correction du problème du tenseur de processeur différent en utilisant le même nom
- Ajouter une API SKIP_SYNCHRONIZE pour Pytorch
- Ajouter l'option pour init paresseux / non-paresseux
v0.2.0
- Améliorez largement les performances RDMA en appliquant la mémoire alignée sur la page.
- Ajoutez une prise en charge IPC pour RDMA. Soutenez maintenant les serveurs et les travailleurs de colocation sans sacrifier beaucoup de performances.
- Correction d'un bug suspendu dans le serveur Byteps.
- Corrigez le problème de défaut de segmentation lié à RDMA pendant Fork () (par exemple, utilisé par Pytorch Data Loader).
- Nouvelle fonctionnalité: Activer le mélange d'utilisation des serveurs de colocalisation et non colocal, ainsi qu'une stratégie d'allocation du tenseur intelligent.
- Nouvelle fonctionnalité: ajoutez bpslaunch comme commande pour lancer des tâches.
- Ajouter la prise en charge de l'installation de PIP: pip3 install byteps

Performance

Nous montrons notre expérience sur la formation Bert-Garg, qui est basée sur la boîte à outils GluonnLP. Le modèle utilise une précision mixte.

Nous utilisons des GPU Tesla V100 32 Go et définissons la taille du lot égale à 64 par GPU. Chaque machine dispose de 8 GPU V100 (mémoire 32 Go) avec NvLink compatible. Les machines sont interconnectées avec un réseau RDMA de 100 Gbps. Il s'agit de la même configuration matérielle que vous pouvez obtenir sur AWS.

Les byteps atteignent une efficacité de mise à l'échelle de ~ 90% pour Bert-Garg avec 256 GPU. Le code est disponible ici. À titre de comparaison, Horovod + NCCL n'a que l'efficacité de mise à l'échelle de ~ 70% même après le tunning des paramètres experts.

Bert-grand

Avec un réseau plus lent, Byteps offre encore plus d'avantages de performances - jusqu'à 2x de Horovod + NCCL. Vous pouvez trouver plus de résultats d'évaluation sur Performance.md.

Au revoir MPI, bonjour cloud

Comment les byteps peuvent-ils surpasser tellement Horovod? L'une des principales raisons est que Byteps est conçu pour les clusters cloud et partagé, et jette MPI.

MPI est né dans le monde du HPC et est bon pour un cluster construit avec du matériel homogène et pour exécuter un seul travail. Cependant, le cloud (ou les clusters partagés en interne) sont différents.

Cela nous amène à repenser la meilleure stratégie de communication, comme expliqué ici. En bref, les byteps n'utilisent que le NCCL à l'intérieur d'une machine, tout en réimplémentant la communication inter-machine.

Byteps intègre également de nombreuses techniques d'accélération telles que la stratégie hiérarchique, le pipeline, le partitionnement du tenseur, la communication locale Awa-Aware, la planification basée sur la priorité, etc.

Démarrage rapide

Nous fournissons un tutoriel étape par étape pour que vous puissiez exécuter des tâches de formation de référence. La façon la plus simple de commencer est d'utiliser nos images Docker. Reportez-vous à des documents pour lancer des travaux distribués et des configurations plus détaillées. Une fois que vous pouvez commencer Byteps, lisez les meilleures pratiques pour obtenir les meilleures performances.

Ci-dessous, nous expliquons comment installer les byteps par vous-même. Il y a deux options.

Installer par pip

 pip3 install byteps

Construire à partir du code source

Vous pouvez essayer les dernières fonctionnalités en installant directement à partir de Master Branch:

 git clone --recursive https://github.com/bytedance/byteps
cd byteps
python3 setup.py install

Remarques pour deux options ci-dessus:

BytePS suppose que vous avez déjà installé un ou plusieurs des cadres suivants: Tensorflow / Pytorch / Mxnet.
Byteps dépend de CUDA et du NCCL. Vous devez spécifier le chemin NCCL avec export BYTEPS_NCCL_HOME=/path/to/nccl . Par défaut, il pointe vers /usr/local/nccl .
L'installation nécessite GCC> = 4,9. Si vous travaillez sur CentOS / Redhat et que vous avez GCC <4,9, vous pouvez essayer yum install devtoolset-7 avant tout le reste. En général, nous vous recommandons d'utiliser GCC 4.9 pour une meilleure compatibilité (comment épingler GCC).
Prise en charge du RDMA: lors de la configuration, le script détectera automatiquement le fichier d'en-tête RDMA. Si vous souhaitez utiliser RDMA, assurez-vous que votre environnement RDMA a été correctement installé et testé avant l'installation (installez sur Ubuntu-18.04).

Exemples

Des exemples de base sont fournis dans l'exemple de dossier.

Pour reproduire l'évaluation de bout en bout dans notre article OSDI'20, trouvez le code de ce dépôt.

Utilisez des byteps dans votre code

Bien qu'il soit totalement différent à la base, Byteps est très compatible avec les interfaces Horovod (merci, communauté Horovod!). Nous avons choisi les interfaces Horovod afin de minimiser vos efforts pour tester les bytes.

Si vos tâches ne reposent que sur Allreduce et diffusion d'Horovod, vous devriez pouvoir passer à des byteps en 1 minute. Remplacez simplement import horovod.tensorflow as hvd par import byteps.tensorflow as bps , puis remplacez tous hvd dans votre code par bps . Si votre code invoque directement hvd.allreduce , vous devez également le remplacer par bps.push_pull .

Beaucoup de nos exemples ont été copiés à partir de Horovod et modifiés de cette manière. Par exemple, comparez l'exemple MNIST pour les byteps et Horovod.

BytePS prend également en charge d'autres API natives, par exemple, des données distribuées Pytorch parallèles et une stratégie en miroir TensorFlow. Voir DistributedDataparallel.md et MirroredStrategy.md pour l'utilisation.

Limitations et plans futurs

Byteps ne prend pas en charge la formation pure du processeur pour l'instant. L'une des raisons est que l'hypothèse PS bon marché des byteps ne tient pas pour la formation du processeur. Par conséquent, vous avez besoin de CUDA et NCCL pour construire et exécuter des byteps.

Nous aimerions avoir des fonctionnalités ci-dessous, et il n'y a pas de difficulté fondamentale pour les mettre en œuvre dans l'architecture Byteps. Cependant, ils ne sont pas encore mis en œuvre:

Formation de modèle clairsemé
Tolérance aux pannes
Straggler-Mitigation

Publications

[OSDI'20] "Une architecture unifiée pour accélérer la formation DNN distribuée dans les grappes hétérogènes GPU / CPU". Yimin Jiang, Yibo Zhu, Chang Lan, Bairen Yi, Yong Cui, Chuanxiong Guo.
[SOSP'19] "Un planificateur de communication générique pour l'accélération de formation DNN distribuée". Yanghua Peng, Yibo Zhu, Yangrui Chen, Yixin Bao, Bairen Yi, Chang Lan, Chuan Wu, Chuanxiong Guo. (Le code est à Bytescheduler Branch)

Développer

Informations supplémentaires

Version v0.2
Type Python
Date de mise à jour 2025-07-13
taille 377.88KB
Provenant de Github

Applications connexes

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Outil de création de graphiques de données open source Redash v24.10.0

2024-11-27
datamule python

2024-11-08
plateforme de visualisation de données smartchart v6.9

2024-11-27
Outil de test de charge acridienne v2.32.0

2024-11-27

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ToDo Co

Python

1.0.0
Python Portfolio

Python
Outil de création de graphiques de données open source Redash v24.10.0

Python

24.10.0
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout