Großartig verteilte Deep Learning
Eine kuratierte Liste der fantastischen verteilten Deep Learning -Ressourcen.
Inhaltsverzeichnis
Frameworks
Blogs
Papiere
Bücher
Frameworks
- MXNET - Leichtes, tragbares, flexibles verteiltes/mobiles Deep -Lernen mit dynamischem, mutationsbewusster DataFlow DEP -Scheduler; Für Python, R, Julia, Go, JavaScript und mehr.
- GO-MXNET-Vorab-Predictor-GO-Bindung für mxNet c_prredict_api, um sich mit vorgebildetem Modell zu schließen.
- DeepLearning4J - Verteilte Deep Learning Platform für Java, Clojure, Scala.
- Distributed Machine Learning Tool Kit (DMTK) - Ein Rahmen für verteiltes maschinelles Lernen (Parameter Server) von Microsoft. Ermöglicht Trainingsmodelle für große Datensätze über mehrere Maschinen hinweg. Zu den aktuellen mit ihm gebündelten Werkzeugen gehören: Lightlda und verteilte (Multisense) Worteinbettung.
- Elephas - Elephas ist eine Erweiterung von Keras, mit der Sie verteilte Deep Learning -Modelle mit Spark ausführen können.
- Horovod - Verteilter Trainingsrahmen für TensorFlow.
Blogs
- Keras + horovod = verteilt tiefes Lernen auf Steroiden
- Treffen
- verteilt-tiep-Learning-Teil-1-An-Einführung-zu-verteilte Ausbildung von Neural-Networks/
- Beschleunigen des tiefen Lernens mit verteiltem SGD - einen Überblick
- Intro zu verteilten Deep -Lernsystemen:
Papiere
Allgemein:
- Entmystifizierender paralleler und verteilter Deep-Lernen: Eine eingehende Parallelitätsanalyse: Erörtert die verschiedenen Arten von Parallelität in DNNs; synchroner und asynchroner stochastischer Gradientenabstieg; verteilte Systemarchitekturen; Kommunikationsschemata; und Leistungsmodellierung. Basierend auf diesen Ansätzen extrapoliert es auch die potenziellen Richtungen für die Parallelität im tiefen Lernen.
Bücher
- Verteilte maschinelle Lernmuster: Dieses Buch lehrt Sie, wie Sie maschinelles Lernmodelle von Ihrem persönlichen Laptop zu großen verteilten Clustern übernehmen. Sie untersuchen wichtige Konzepte und Muster für erfolgreiche verteilte maschinelle Lernsysteme und lernen Technologien wie Tensorflow, Kubernetes, Kubeflow und Argo-Workflows direkt von einem wichtigen Betreuer und Mitwirkenden mit realen Szenarien und praktischen Projekten.
Modellkonsistenz:
Synchronisation:
Synchrone Techniken:
- Deep Learning with COTS HPC-Systeme: COTS-HPC-Technologie (Commodity Off-the-Shelf High Performance Computing), eine Gruppe von GPU-Servern mit Infiniband-Verbindungen und MPI.
- Firecaffe: Die nahezu lineare Beschleunigung des tiefen neuronalen Netzwerktrainings für Rechencluster: Die Geschwindigkeit und Skalierbarkeit verteilter Algorithmen ist fast immer durch den Aufwand der Kommunikation zwischen Servern begrenzt. Das DNN -Training ist keine Ausnahme von dieser Regel. Daher ist die wichtigste Überlegung dieses Papiers darin, die Kommunikationsaufwand nach Möglichkeit zu reduzieren und gleichzeitig die Genauigkeit der DNN -Modelle, die wir trainieren, nicht zu verschlechtern.
- SparkNet: Training tiefe Netzwerke in Spark. In Proceedings der Internationalen Konferenz über Lernrepräsentationen (ICLR).
- 1-Bit SGD: 1-Bit-Stochastik-Gradientenabstieg und Anwendung auf datenparallele verteilte Sprachausbildung in Interspeech 2014.
- Skalierbares verteiltes DNN -Training unter Verwendung von Commodity GPU Cloud Computing: Es führt eine neue Methode zur Skalierung von verteilten stochastischen Gradientenabfällen (SGD) ein, die tiefe neuronale Netzwerke (DNN) (DNN) aufbauen. Die Methode löst das bekannte Kommunikations-Engpass-Problem, das für datenparallele SGD entsteht, da Rechenknoten häufig eine Replik des Modells synchronisieren müssen.
- Multi-GPU-Ausbildung von Überzeugungsarbeiten: Ausbildung von Überzeugungsarbeiten an mehreren GPUs
Stale-synchronische Techniken:
- Modellgenauigkeit und Laufzeit -Kompromiss in verteiltem Deep Learning: Eine systematische Studie.
- Ein schneller Lernalgorithmus für tiefe Glaubensnetze.
- Heterogenitätsbewusste verteilte Parameterserver: J. Jiang, B. Cui, C. Zhang und L. Yu. 2017. Heterogenitätsbewusst verteilte Parameterserver. In Proc. 2017 ACM International Conference zum Management von Daten (Sigmod '17). 463–478.
- Asynchroner paralleler stochastischer Gradient für nicht konvexe Optimierung: x. Lian, Y. Huang, Y. Li und J. Liu. 2015. Asynchroner paralleler stochastischer Gradient für die nicht konvexe Optimierung. In Proc. 28. int'l Conf. auf NIPS - Volume 2. 2737–2745.
- Staless-bewusstes Async-SGD für verteiltes Deep Learning: W. Zhang, S. Gupta, X. Lian und J. Liu. 2016. Staless-bewusstes Async-SGD für verteiltes Deep Learning. In Proc. Fünfundzwanzig internationale gemeinsame Konferenz über künstliche Intelligenz (IJCAI'16). 2350–2356.
Asynchrone Techniken:
- Eine einheitliche Analyse von Hogwild! -Style-Algorithmen: C. de Sa, C. Zhang, K. Olukotun und C. Ré. 2015. Zähmung der Wildnis: Eine einheitliche Analyse von Hogwild! -Style-Algorithmen. In Proc. 28. int'l Conf. auf NIPS - Volume 2. 2674–2682.
- Große verteilte tiefe Netzwerke: J. Dean et al. 2012. Große verteilte tiefe Netzwerke. In Proc. 25. Internationale Konferenz zu neuronalen Informationsverarbeitungssystemen - Band 1 (NIPS'12). 1223–1231.
- Asynchrone paralleler stochastischer Gradientenabstieg: j. Keuper und F. Pfreundt. 2015. Asynchroner paralleler stochastischer Gradientenabstieg: Ein numerischer Kern für skalierbare verteilte Algorithmen für maschinelles Lernen. In Proc. Workshop über MLHPC. 1: 1–1: 11.
- Hundewild! -Verteilte Hogwild für CPU & GPU.: C. Noel und S. Osindero. 2014. Dogwild!-Desvertasted Hogwild für CPU & GPU. In NIPS Workshop über verteilte maschinelle Lernen und Matrixberechnungen.
- GPU Asynchroner stochastischer Gradientenabstieg zur Beschleunigung des neuronalen Netzwerks: T. Paine, H. Jin, J. Yang, Z. Lin und TS Huang. 2013. GPU Asynchroner stochastischer Gradientenabstieg zur Beschleunigung des neuronalen Netzwerks. (2013). ARXIV: 1312.6186
- Hogwild!: Ein schlossfreier Ansatz zur parallelisierenden stochastischen Gradientenabstieg: B. Renht, C. Re, S. Wright und F. Niu. 2011. Hogwild: Ein schlossfreier Ansatz zur parallelisierenden stochastischen Gradientenabstieg. In Fortschritten in neuronalen Informationsverarbeitungssystemen 24. 693–701.
- Asynchroner stochastischer Gradientenabstieg für DNN -Training: S. Zhang, C. Zhang, Z. Sie, R. Zheng und B. Xu. 2013. Asynchroner stochastischer Gradientenabstieg für DNN -Training. In der IEEE International Conference über Akustik, Sprach und Signalverarbeitung. 6660–6663.
Nichtdeterministische Kommunikation:
- Gossipgrad: Skalierbares tiefes Lernen unter Verwendung von asynchroner Gradientenabstieg mit Klatsch und Tratschkommunikation
- Wie können Sie verteiltes Deep -Lernen skalieren: Wie können Sie verteiltes Deep -Lernen skalieren?
- Heterogenitätsbewusste verteilte Parameterserver: Eine Untersuchung des verteilten maschinellen Lernens in heterogenen Umgebungen.
Parameterverteilung und Kommunikation:
Zentralisierung:
Parameterserver (PS):
- Geeps: Skalierbares Deep-Lernen auf verteiltem GPUs mit einem GPU-spezialisierten Parameter. Server.
- Firecaffe: Fn Iandola, MW Moskewicz, K. Ashraf und K. Keutzer. 2016: nahezu lineare Beschleunigung des tiefen neuronalen Netzwerktrainings für Rechencluster. In der IEEE -Konferenz über Computer Vision und Mustererkennung (CVPR).
- DeepSpark: H. Kim et al. 2016. Spark-basierte Deep Learning unterstützt asynchrone Updates und Kaffekompatibilität. (2016).
- Skalierung verteilter maschinelles Lernen mit dem Parameterserver: M. Li et al. 2014. Skalierung verteiltes maschinelles Lernen mit dem Parameterserver. In Proc. 11. Usenix -Konferenz zum Entwurf und Implementierung von Betriebssystemen (OSDI'14). 583–598.
Sharded PS:
- Projekt Adam: t. Chilimbi, Y. Suzuue, J. Apacible und K. Kalyanaraman. 2014. Aufbau eines effizienten und skalierbaren Deep -Learning -Trainingssystems. Im 11. Usenix Symposium zum Entwurf und der Implementierung von Betriebssystemen. 571–582.
- Große verteilte tiefe Netzwerke: J. Dean et al. 2012. Große verteilte tiefe Netzwerke. In Proc. 25. Internationale Konferenz zu neuronalen Informationsverarbeitungssystemen - Band 1 (NIPS'12). 1223–1231.
- Heterogenitätsbewusste verteilte Parameterserver: J. Jiang, B. Cui, C. Zhang und L. Yu. 2017. Heterogenitätsbewusst verteilte Parameterserver. In Proc. 2017 ACM International Conference zum Management von Daten (Sigmod '17). 463–478.
- Aufbau hochrangiger Merkmale mit großem Umfang unbeaufsichtigtes Lernen: Qv Le, M. Ranzato, R. Monga, M. Devin, K. Chen, GS Corrado, J. Dean und Ay Ng. 2012. Aufbau hochrangiger Merkmale mit großem Maßstab unbeaufsichtigtem Lernen. In Proc. 29. int'l Conf. über maschinelles Lernen (ICML'12). 507–514.
- Deep Learning bei 15PF: Überwachende und semi-vortrimierte Klassifizierung für wissenschaftliche Daten: T. Kurth et al. 2017. Deep Learning bei 15PF: Überwachende und halbübergreifende Klassifizierung für wissenschaftliche Daten. In Proc. Int'l Conf. Für Hochleistungs -Computing, Networking, Speicher und Analyse (SC '17). 7: 1–7: 11.
- Petuum: Ep Xing, Q. Ho, W. Dai, JK Kim, J. Wei, S. Lee, X. Zheng, P. Xie, A. Kumar und Y. Yu. 2015. PetUum: Eine neue Plattform für verteiltes maschinelles Lernen auf Big Data. IEEE -Transaktionen zu Big Data 1, 2 (2015), 49–67.
- Poseidon: H. Zhang, Z. Hu, J. Wei, P. Xie, G. Kim, Q. Ho und Ep Xing. 2015. Poseidon: Eine Systemarchitektur für effizientes GPU-basierter Deep-Lernen auf mehreren Maschinen. (2015). ARXIV: 1512.06216
Hierarchische PS:
- Modellgenauigkeit und Laufzeit in Distributed Deep Learning: Eine systematische Studie: S. Gupta, W. Zhang und F. Wang. 2016. Modellgenauigkeit und Laufzeit in Distributed Deep Learning: Eine systematische Studie. In IEEE 16. International Conference on Data Mining (ICDM). 171–180.
- Gaia: K. Hsieh, A. Harlap, N. Vijaykumar, D. Konomis, GR Ganger, PB Gibbons und O. Mutlu. 2017. Gaia: Geo-verteiltes maschinelles Lernen, das sich LAN-Geschwindigkeiten nähert. In Proc. 14. Usenix Conf. auf NSDI. 629–647.
- Verwenden Sie Supercomputer, um das neuronale Netzwerk zu beschleunigen: Y. Yu, J. Jiang und X. Chi. 2016. Verwenden von Supercomputer, um das neuronale Netzwerk zu beschleunigen. In IEEE 22. Internationale Konferenz über parallele und verteilte Systeme (ICPADS). 942–947.
Feedback: Wenn Sie Ideen haben oder möchten, dass andere Inhalte dieser Liste hinzugefügt werden, können Sie zur Liste beitragen.