baguaダウンロードbaguaソースコードのダウンロード

bagua

パイソン

v0.9.2

ダウンロード

警告：会社の再編成により、このプロジェクトは現在維持されていません。

Baguaは、AIプラットフォーム@Kuaishou TechnologyとDS3 Lab@EthZürichによって開発されたPytorchの深い学習トレーニング加速フレームワークです。 Baguaは現在サポートしています：

高度な分散トレーニングアルゴリズム：ユーザーは、単一のコードを追加するだけで、単一のGPUのトレーニングをマルチGPU（複数のマシンにまたがる場合があります）に拡張できます（オプションでは弾性モード）。 Baguaの顕著な特徴の1つは、分散トレーニングの最先端のシステムリラクゼーション技術をサポートする柔軟なシステム抽象化を提供することです。これまでのところ、Baguaにはコミュニケーションのプリミティブを統合しています
- 一元化された同期通信（例：勾配allreduce）
- 分散化された同期通信（例：分散型SGD）
- 低精度通信（たとえばBytegrad）
- 非同期通信（例えば、非同期モデル平均）
Cached Dataset ：データの読み込みが遅い場合、またはデータの前処理が退屈な場合、トレーニングプロセス全体の主要なボトルネックになる可能性があります。 Baguaは、メモリにデータサンプルをキャッシュすることにより、このプロセスをスピードアップするためにキャッシュされたデータセットを提供し、初めてこれらのサンプルを読むことがはるかに高速になります。
TCP通信アクセラレーション（Bagua-net） ：Bagua-netは、Baguaが提供する低レベルの通信アクセラレーション機能です。 TCPネットワーク上のAllReduceのスループットを大幅に改善できます。 NCCLを使用してGPU通信を行う分散トレーニングジョブでBagua-Net最適化を有効にすることができます（これにはPytorch-DDP、Horovod、Deepspeedなど）。
パフォーマンスオートチューニング：Baguaは、システムパラメーターを自動的に調整して、最高のスループットを実現できます。
ジェネリック融合オプティマイザー：Baguaは、複数層でOptimizer .step()操作を融合することにより、オプティマイザーの性能を向上させる一般的な融合オプティマイザーを提供します。 Nvidia Apexのアプローチとは対照的に、特定のオプティマイザーのみが実装されている任意のPytorch Optimizerに適用できます。
ロードバランスデータローダー：トレーニングデータのサンプルの計算の複雑さが異なる場合、たとえば各サンプルの長さが異なるNLPや音声タスクでは、バグアの負荷バランスデータローダーを使用して、分散トレーニングスループットを大幅に改善できます。
Pytorch Lightningとの統合：分散トレーニングジョブにPytorch Lightningを使用していますか？これで、トレーナーにstrategy=BaguaStrategyを設定するだけで、Pytorch LightningでBaguaを使用できます。これにより、分散型方法、非同期方法、通信圧縮、その組み合わせなど、さまざまな高度なトレーニングアルゴリズムを活用できます。

その有効性は、Imagenet、Bert Large、およびKuaishouの多くの産業用アプリケーションのVGGやResnetなど、さまざまなシナリオで評価されています。

リンク

Bagua Main Git Repo
Baguaチュートリアル
バグアの例
Bagua APIドキュメント

パフォーマンス

異なるネットワーク帯域幅の下で128 GPUを使用したVGG16の異なるシステムとアルゴリズムのパフォーマンス。

さまざまなシステムの異なるネットワーク条件下で、Bert-Large Finetuneのエポック時間。

より包括的かつ最新の結果については、Bagua Benchmarkページを参照してください。

インストール

Linux（x86_64）には、ホイール（プリコンパイルされたバイナリパッケージ）が利用できます。パッケージ名は、CUDAツールキットバージョンによって異なります（CUDAツールキットバージョンはnvcc --version ）。

CUDAツールキットバージョン	インストールコマンド
> = V10.2	`pip install bagua-cuda102`
> = v11.1	`pip install bagua-cuda111`
> = v11.3	`pip install bagua-cuda113`
> = v11.5	`pip install bagua-cuda115`
> = v11.6	`pip install bagua-cuda116`

PRE-RELEASE（開発）バージョンをインストールするには、 --pre pip installコマンドを追加します。クイックスタートガイドとその他のインストールオプションについては、Baguaチュートリアルを参照してください。

AWSのクイックスタート

Amazon Machine Images（AMI）のおかげで、柔軟なサイズのマシンと幅広いGPUタイプを備えたAWS EC2クラスターにBaguaを簡単に展開および実行する方法をユーザーに提供できます。ユーザーは、ここで公開するユニークなAMI-IDによって、EC2で事前にインストールされたBagua画像を見つけることができます。 AMIは地域のリソースであることに注意してください。そのため、AMIと同じレジノンのマシンを使用していることを確認してください。

Baguaバージョン	ami id	地域
0.6.3	AMI-0E719D0E3E42B397E	US-East-1
0.9.0	AMI-0F01FD14E9A742624	US-East-1

EC2クラスターをより効率的に管理するために、StarClusterをツールキットとして使用してクラスターを操作します。 StarClusterのconfigファイルには、AWS資格情報、クラスター設定などを含むユーザーが設定する必要がある構成がいくつかあります。StarCluster構成に関する詳細情報は、このチュートリアルに記載されています。

たとえば、4つのマシンを備えたEC2クラスターを作成し、それぞれに8つのV100 GPU（ p3.16xlarge ）があります。クラスターはus-east-1地域で事前にインストールしたBagua Amiに基づいています。その場合、StarClusterのconfigファイルは次のとおりです。

 # region of EC2 instances, here we choose us_east_1
AWS_REGION_NAME = us-east-1
AWS_REGION_HOST = ec2.us-east-1.amazonaws.com
# AMI ID of Bagua
NODE_IMAGE_ID = ami-0e719d0e3e42b397e
# number of instances
CLUSTER_SIZE = 4
# instance type
NODE_INSTANCE_TYPE = p3.16xlarge

上記のセットアップを使用して、それぞれ2つの同一のクラスターを作成して、それぞれBaguaとHorovod上の合成画像分類タスクをベンチマークしました。これがこの実験の画面録音ビデオです。

バグアを引用します

 % System Overview
@misc { gan2021bagua ,
  title = { BAGUA: Scaling up Distributed Learning with System Relaxations } , 
  author = { Shaoduo Gan and Xiangru Lian and Rui Wang and Jianbin Chang and Chengjun Liu and Hongmei Shi and Shengzhuo Zhang and Xianghong Li and Tengxu Sun and Jiawei Jiang and Binhang Yuan and Sen Yang and Ji Liu and Ce Zhang } ,
  year = { 2021 } ,
  eprint = { 2107.01499 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { cs.LG }
}

% Theory on System Relaxation Techniques
@book { liu2020distributed ,
  title = { Distributed Learning Systems with First-Order Methods: An Introduction } ,
  author = { Liu, J. and Zhang, C. } ,
  isbn = { 9781680837018 } ,
  series = { Foundations and trends in databases } ,
  url = { https://books.google.com/books?id=vzQmzgEACAAJ } ,
  year = { 2020 } ,
  publisher = { now publishers }
}