素晴らしい分散の深い学習
素晴らしい分散型深い学習リソースのキュレーションされたリスト。
目次
フレームワーク
ブログ
論文
本
フレームワーク
- MXNET-動的で変異認識データフローDEPスケジューラを使用した軽量、ポータブル、柔軟な分散/モバイルディープラーニング。 Python、R、Julia、Go、JavaScriptなど。
- GO-MXNET-PREDICTOR-MXNET C_PREDICT_APIが事前に訓練されたモデルを使用して推論を行うためのGO Binding。
- deeplearning4j-ジャバ、クロジュール、スカラ向けのディープラーニングプラットフォーム。
- 分散機械学習ツールキット(DMTK) - Microsoftによる分散機械学習(パラメーターサーバー)フレームワーク。複数のマシンにわたる大規模なデータセットでのトレーニングモデルを有効にします。それにバンドルされた現在のツールには、Lightldaと分布(マルチセンス)ワード埋め込みが含まれます。
- Elephas -ElephasはKerasの延長であり、Sparkで大規模に分散したディープラーニングモデルを実行できます。
- Horovod- Tensorflowの分散トレーニングフレームワーク。
ブログ
- Keras + horovod =ステロイドの分布深い学習
- Horovodに会う:UberのオープンソースTensorflowのディープラーニングフレームワーク
- Distributed-Deep-Learning-Part-1-An-Introduction-to-Distributed-of-neural-networks/
- 分散型SGDを使用したディープラーニングの加速 - 概要
- 分散型ディープラーニングシステムへのイントロ:
論文
一般的な:
- 並列および分散の深い学習を分散させる:詳細な並行性分析:DNNSのさまざまなタイプの並行性について説明します。同期および非同期確率的勾配降下;分散システムアーキテクチャ。コミュニケーションスキーム;およびパフォーマンスモデリング。これらのアプローチに基づいて、深い学習における並列性の潜在的な方向も推定します。
本
- 分散機械学習パターン:この本は、個人のラップトップから大規模な分散クラスターに機械学習モデルを採取する方法を教えてくれます。成功した分散機械学習システムの背後にある重要な概念とパターンを探求し、Tensorflow、Kubernetes、Kubeflow、Argoワークフローなどのテクノロジーを、主要なメンテナーと貢献者から直接、実際のシナリオと実践プロジェクトを備えています。
モデルの一貫性:
同期:
同期テクニック:
- COTS HPCシステムを使用したディープラーニング:コモディティオフシェルフハイパフォーマンスコンピューティング(COTS HPC)テクノロジー、インフィニバンドの相互接続とMPIを備えたGPUサーバーのクラスター。
- Firecaffe:コンピューティングクラスターに関する深いニューラルネットワークトレーニングのほぼ線形加速:分散アルゴリズムの速度とスケーラビリティは、ほとんど常にサーバー間の通信のオーバーヘッドによって制限されます。 DNNトレーニングは、このルールの例外ではありません。したがって、このペーパーが行う重要な考慮事項は、可能な限り通信オーバーヘッドを減らすことでありながら、トレーニングするDNNモデルの精度を低下させないことです。
- SparkNet:Sparkのディープネットワークのトレーニング。学習表現に関する国際会議(ICLR)の議事録。
- 1ビットSGD:1ビットの確率的勾配降下と、Speech 2014での発話DNNのデータ並列分散トレーニングへの適用。
- コモディティGPUクラウドコンピューティングを使用したスケーラブルな分散DNNトレーニング:ディープニューラルネットワーク(DNN)の分散確率勾配降下(SGD)トレーニングをスケーリングするための新しい方法を導入します。このメソッドは、データ並列SGDで発生するよく知られている通信ボトルネックの問題を解決します。これは、コンピューティングノードがモデルのレプリカを同期する必要があるため、頻繁に必要です。
- コンベネットのマルチGPUトレーニング:複数のGPUでのコンベネットのトレーニング
古い同期技術:
- 分散ディープラーニングにおけるモデルの精度とランタイムトレードオフ:体系的な研究。
- 深い信念ネットのための高速学習アルゴリズム:深い信念網のための高速学習アルゴリズム
- 不均一性 - アウェア分散パラメーターサーバー。:J。Jiang、B。Cui、C。Zhang、およびL. Yu。 2017。不均一性対応分布パラメーターサーバー。 Proc。 2017 ACMデータ管理に関する国際会議(SIGMOD '17)。 463–478。
- 非コンベックス最適化のための非同期平行確率勾配:x。 Lian、Y。Huang、Y。Li、およびJ. Liu。 2015年。非凸最適化のための非同期平行確率勾配。 Proc。 28th int'l conf。 NIPS -Volume 2。2737–2745。
- 分散型深い学習のためのstaleness-aware async-sgd:W。Zhang、S。Gupta、X。Lian、およびJ. Liu。 2016。分散した深い学習のためのstaleness-Async-SGD。 Proc。人工知能に関する第25回国際共同会議(IJCAI'16)。 2350–2356。
非同期テクニック:
- Hogwild!-Style Algorithmsの統一分析。 2015。TamingTheWild:HogWild!-Styleアルゴリズムの統一分析。 Proc。 28th int'l conf。 NIPS -Volume 2。2674–2682。
- 大規模分布ディープネットワーク:J。Dean et al。 2012年。大規模な分散型ディープネットワーク。 Proc。神経情報処理システムに関する第25回国際会議 - 第1巻(NIPS'12)。 1223–1231。
- 非同期平行確率勾配降下:j。 KeuperとF. Pfreundt。 2015。非同期平行確率勾配降下:スケーラブルな分散機械学習アルゴリズムの数値コア。 Proc。 MLHPCのワークショップ。 1:1–1:11。
- dogwild! - CPU&GPUのためにHogwildを分散しました。 2014。DogWild! - CPU&GPUのためにHogWildを分散しました。分散機械学習とマトリックス計算に関するNIPSワークショップ。
- GPU非同期確率的勾配降下神経ネットワークトレーニングをスピードアップするための:: T. Paine、H。Jin、J。Yang、Z。Lin、およびTS Huang。 2013。GPU非同期確率的勾配降下は、ニューラルネットワークトレーニングを高速化します。 (2013)。 Arxiv:1312.6186
- Hogwild!:確率的勾配降下を並列化するためのロックフリーのアプローチ:B。Recht、C。Re、S。Wright、およびF. Niu。 2011。Hogwild:確率的勾配降下を並列化するためのロックフリーのアプローチ。神経情報処理システムの進歩24。693–701。
- DNNトレーニングの非同期確率的勾配降下:S。Zhang、C。Zhang、Z。You、R。Zheng、およびB. Xu。 2013。DNNトレーニングの非同期確率勾配降下。音響、音声、信号処理に関するIEEE国際会議。 6660–6663。
非決定論的コミュニケーション:
- ゴシップグラード:ゴシップコミュニケーションベースの非同期勾配降下を使用したスケーラブルな深い学習
- 分散型の深い学習を拡大する方法:分散型深い学習を拡大する方法は?
- 不均一性対応パラメーターサーバー:不均一環境での分散機械学習の研究。
パラメーターの分布と通信:
集中化:
パラメーターサーバー(PS):
- GEEPS:GPU専門化されたパラメーターを使用した分散GPUのスケーラブルなディープラーニング。サーバ。
- Firecaffe:Fn Iandola、MW Moskewicz、K。Ashraf、およびK. Keutzer。 2016:コンピューティングクラスターの深部ニューラルネットワークトレーニングのほぼ線形加速。コンピュータービジョンとパターン認識に関するIEEE会議(CVPR)。
- Deepspark:H。Kim et al。 2016年。非同期更新とカフェの互換性をサポートするSparkベースのディープラーニング。 (2016)。
- パラメーターサーバーを使用したスケーリング分散機械学習:M。Li et al。 2014年。パラメーターサーバーを使用した分散機械学習のスケーリング。 Proc。第11回オペレーティングシステムの設計と実装に関する会議(OSDI'14)。 583–598。
シャードPS:
- プロジェクトアダム:t。 Chilimbi、Y。Suzue、J。Apacible、K。Kalyanaraman。 2014年。効率的でスケーラブルなディープラーニングトレーニングシステムの構築。オペレーティングシステムの設計と実装に関する第11回USENIXシンポジウム。 571–582。
- 大規模分布ディープネットワーク:J。Dean et al。 2012年。大規模な分散型ディープネットワーク。 Proc。神経情報処理システムに関する第25回国際会議 - 第1巻(NIPS'12)。 1223–1231。
- 不均一性 - アウェア分散パラメーターサーバー:J。Jiang、B。Cui、C。Zhang、およびL. Yu。 2017。不均一性対応分布パラメーターサーバー。 Proc。 2017 ACMデータ管理に関する国際会議(SIGMOD '17)。 463–478。
- 大規模な監視なしの学習を使用した高レベルの機能の構築:QV Le、M。Ranzato、R。Monga、M。Devin、K。Chen、GS Corrado、J。Dean、およびAy Ng。 2012年。大規模な監視されていない学習を使用した高レベル機能の構築。 Proc。 29th int'l conf。機械学習(ICML'12)。 507–514。
- 15pfでのディープラーニング:科学データの監督された半教師分類:T。Kurth et al。 2017。15PFでのディープラーニング:科学データの監督された半教師の分類。 Proc。 int'l conf。高性能コンピューティング、ネットワーキング、ストレージ、分析(SC '17)。 7:1–7:11。
- Petuum:Ep Xing、Q。Ho、W。Dai、JK Kim、J。Wei、S。Lee、X。Zheng、P。Xie、A。Kumar、およびY. Yu。 2015。Petuum:ビッグデータ上の分散機械学習のための新しいプラットフォーム。ビッグデータに関するIEEEトランザクション1、2(2015)、49–67。
- Poseidon:H。Zhang、Z。Hu、J。Wei、P。Xie、G。Kim、Q。Ho、およびEp Xing。 2015。Poseidon:複数のマシンでの効率的なGPUベースのディープラーニングのためのシステムアーキテクチャ。 (2015)。 Arxiv:1512.06216
階層PS:
- 分散型深い学習におけるモデルの精度とランタイムトレードオフ:体系的な研究:S。Gupta、W。Zhang、およびF. Wang。 2016。分散型深い学習におけるモデルの精度とランタイムトレードオフ:体系的な研究。 IEEE第16回データマイニングに関する国際会議(ICDM)。 171–180。
- ガイア:K。Hsieh、A。Harlap、N。Vijaykumar、D。Konomis、Gr Ganger、PB Gibbons、およびO. Mutlu。 2017。Gaia:LAN速度に近づく地理分散機械学習。 Proc。 14th Usenix Conf。 NSDIで。 629–647。
- スーパーコンピューターを使用してニューラルネットワークトレーニングをスピードアップします:Y。Yu、J。Jiang、およびX. Chi。 2016年。スーパーコンピューターを使用して、ニューラルネットワークトレーニングをスピードアップします。 IEEE 22回目の並列および分散システム(ICPAD)に関する国際会議。 942–947。
フィードバック:アイデアがある場合、または他のコンテンツをこのリストに追加したい場合は、リストに自由に貢献してください。