Apprentissage en profondeur distribué génial
Une liste organisée de ressources d'apprentissage en profondeur distribuées impressionnantes.
Table des matières
Frameworks
Blogs
Papiers
Livres
Frameworks
- MXNET - Apprentissage en profondeur léger, portable et flexible / mobile avec le planificateur DATFlow Dataflow DATAT-AWARE DATATATION; Pour Python, R, Julia, Go, Javascript et plus encore.
- go-mxnet-prector - allez lier pour mxnet c_predict_api pour faire l'inférence avec le modèle pré-formé.
- DeepLearning4J - Plateforme d'apprentissage en profondeur distribué pour Java, Clojure, Scala.
- Kit d'outils d'apprentissage automatique distribué (DMTK) - Un framework d'apprentissage automatique distribué (serveur de paramètres) par Microsoft. Permet des modèles de formation sur de grands ensembles de données sur plusieurs machines. Les outils actuels regroupés incluent: LightLDA et intérim (multisens) Incorpore des mots.
- Elephas - Elephas est une extension de Keras, qui vous permet d'exécuter des modèles d'apprentissage en profondeur distribués à grande échelle avec Spark.
- Horovod - Cadre de formation distribué pour TensorFlow.
Blogs
- Keras + horovod = apprentissage en profondeur distribué sur les stéroïdes
- Rencontrez Horovod: Open source d'Uber a distribué le cadre d'apprentissage en profondeur pour TensorFlow
- réparti-de-profonde-apprenti
- Accélérer l'apprentissage en profondeur à l'aide de SGD distribué - un aperçu
- Introduction aux systèmes d'apprentissage en profondeur distribués:
Papiers
Général:
- Démystifier parallèle et distribué l'apprentissage en profondeur: une analyse de concurrence approfondie: discute des différents types de concurrence dans les DNN; Descente de gradient stochastique synchrone et asynchrone; Architectures de système distribuées; schémas de communication; et la modélisation des performances. Sur la base de ces approches, il extrapole également les directions potentielles de parallélisme dans l'apprentissage en profondeur.
Livres
- Modèles d'apprentissage automatique distribués: ce livre vous apprend à prendre des modèles d'apprentissage automatique de votre ordinateur portable personnel aux grands grappes distribuées. Vous explorerez des concepts clés et des modèles derrière les systèmes d'apprentissage automatique distribués réussis et apprenez des technologies comme Tensorflow, Kubernetes, Kubeflow et Argo Workflows directement à partir d'un mainteneur et d'un contributeur clé, avec des scénarios réels et des projets pratiques.
Cohérence du modèle:
Synchronisation:
Techniques synchrones:
- Apprentissage en profondeur avec Systèmes HPC COTS: technologie de calcul (COTS HPC) de base (COTS HPC), un groupe de serveurs GPU avec Interconnects Infiniband et MPI.
- Firecaffe: Accélération quasi-linéaire de la formation de réseau neuronal profond sur les grappes de calcul: la vitesse et l'évolutivité des algorithmes distribués sont presque toujours limitées par les frais généraux de communication entre les serveurs; La formation DNN n'est pas une exception à cette règle. Par conséquent, la considération clé de ce document est de réduire les frais généraux de communication dans la mesure du possible, tout en ne dégradant pas la précision des modèles DNN que nous formons.
- SparkNet: Formation de réseaux profonds dans Spark. Dans les actes de la Conférence internationale sur les représentations de l'apprentissage (ICLR).
- SGD 1 bits: descente du gradient stochastique 1 bits et application à la formation distribuée parallèle aux données des DNN de la parole, dans Interspeech 2014.
- Formation DNN distribuée évolutive à l'aide du cloud computing GPU de marchandises: il introduit une nouvelle méthode pour la mise à l'échelle de la formation de descente de gradient stochastique distribué (SGD) des réseaux de neurones profonds (DNN). La méthode résout le problème d'étranglement de communication bien connu qui se pose pour le SGD parallèle aux données car les nœuds de calcul ont souvent besoin de synchroniser une réplique du modèle.
- Formation multi-GPU des convaints.: Formation des convaints sur plusieurs GPU
Techniques stables synchrones:
- Précision du modèle et compromis d'exécution dans l'apprentissage en profondeur distribué: une étude systématique.
- Un algorithme d'apprentissage rapide pour les filets de croyance profonde .: un algorithme d'apprentissage rapide pour les filets de croyance profonde
- Serveurs de paramètres distribués à l'hétérogénéité.: J. Jiang, B. Cui, C. Zhang et L. Yu. 2017. Serveurs de paramètres distribués à l'hétérogénéité. Dans Proc. 2017 ACM International Conference on Management of Data (Sigmod '17). 463–478.
- Gradient stochastique parallèle asynchrone pour l'optimisation non convexe: x. Lian, Y. Huang, Y. Li et J. Liu. 2015. Gradient stochastique parallèle asynchrone pour l'optimisation non convexe. Dans Proc. 28th Int'l conf. sur NIPS - Volume 2. 2737–2745.
- Asynchronisation de la staliarité pour l'apprentissage en profondeur distribué: W. Zhang, S. Gupta, X. Lian et J. Liu. 2016. Asynchronise-SGD de la stabilité pour l'apprentissage en profondeur distribué. Dans Proc. Vingt-cinquième conférence conjointe internationale sur l'intelligence artificielle (Ijcai'16). 2350–2356.
Techniques asynchrones:
- Une analyse unifiée des algorithmes de style Hogwild!: C. de SA, C. Zhang, K. Olukotun et C. Ré. 2015. Taming the Wild: une analyse unifiée des algorithmes de style Hogwild! Dans Proc. 28th Int'l conf. sur Nips - Volume 2. 2674–2682.
- Réseaux profonds distribués à grande échelle: J. Dean et al. 2012. Réseaux profonds distribués à grande échelle. Dans Proc. 25e Conférence internationale sur les systèmes de traitement de l'information neuronal - Volume 1 (NIPS'12). 1223–1231.
- Descente de gradient stochastique parallèle asynchrone: j. Keuper et F. Pfreundt. 2015. Descente de gradient stochastique parallèle asynchrone: un noyau numérique pour les algorithmes d'apprentissage automatique distribués évolutifs. Dans Proc. Atelier sur MLHPC. 1: 1–1: 11.
- Dogwild! - Hogwild distribué pour CPU et GPU: C. Noel et S. Osindero. 2014. Dogwild! -Distribué Hogwild pour CPU et GPU. Dans NIPS Atelier sur l'apprentissage automatique distribué et les calculs de matrice.
- GPU Asynchronous Stochastic Gradient Descent Pour accélérer la formation de réseau neuronal: T. Paine, H. Jin, J. Yang, Z. Lin et TS Huang. 2013. GPU Asynchronous Stochastic Gradient Descent pour accélérer la formation de réseau neuronal. (2013). Arxiv: 1312.6186
- Hogwild !: Une approche sans serrure pour paralléliser la descente de gradient stochastique: B. Recht, C. Re, S. Wright et F. Niu. 2011. Hogwild: une approche sans serrure pour paralléliser la descente de gradient stochastique. Dans les progrès des systèmes de traitement de l'information neuronaux 24. 693–701.
- Descente de gradient stochastique asynchrones pour la formation DNN: S. Zhang, C. Zhang, Z. You, R. Zheng et B. Xu. 2013. Descente de gradient stochastique asynchrone pour la formation DNN. Dans la conférence internationale de l'IEEE sur l'acoustique, le traitement de la parole et du signal. 6660–6663.
Communication non déterministe:
- Gossipgrad: Apprentissage en profondeur évolutif à l'aide de la communication de potins basée sur une descente de gradient asynchrone
- Comment faire évoluer l'apprentissage en profondeur distribué: comment mettre à l'échelle un apprentissage en profondeur distribué?
- Serveurs de paramètres distribués à l'hétérogénéité: une étude de l'apprentissage automatique distribué dans des environnements hétérogènes.
Distribution et communication des paramètres:
Centralisation:
Serveur de paramètres (PS):
- GEEPS: apprentissage en profondeur évolutif sur des GPU distribués avec un paramètre spécialisé au GPU. Serveur.
- Firecaffe: FN IANDOLA, MW MOSKEWICZ, K. Ashraf et K. Keutzer. 2016: Accélération quasi-linéaire de la formation profonde du réseau neuronal sur les grappes de calculs. Dans la conférence IEEE sur la vision par ordinateur et la reconnaissance des modèles (CVPR).
- Deeppark: H. Kim et al. 2016. Apprentissage en profondeur basé sur Spark soutenant les mises à jour asynchrones et la compatibilité CAFE. (2016).
- Échelle d'apprentissage automatique distribué avec le serveur de paramètres: M. Li et al. 2014. Échelle d'apprentissage automatique distribué avec le serveur de paramètres. Dans Proc. 11e conférence Usenix sur la conception et la mise en œuvre des systèmes d'exploitation (OSDI'14). 583–598.
PS fragné:
- Projet Adam: T. Chilimbi, Y. Suzue, J. Apacible et K. Kalyanaraman. 2014. Construire un système de formation en profondeur efficace et évolutif. Dans le 11e Symposium Usenix sur la conception et la mise en œuvre des systèmes d'exploitation. 571–582.
- Réseaux profonds distribués à grande échelle: J. Dean et al. 2012. Réseaux profonds distribués à grande échelle. Dans Proc. 25e Conférence internationale sur les systèmes de traitement de l'information neuronal - Volume 1 (NIPS'12). 1223–1231.
- Serveurs de paramètres distribués à l'hétérogénéité: J. Jiang, B. Cui, C. Zhang et L. Yu. 2017. Serveurs de paramètres distribués à l'hétérogénéité. Dans Proc. 2017 ACM International Conference on Management of Data (Sigmod '17). 463–478.
- Construire des caractéristiques de haut niveau utilisant un apprentissage non supervisé à grande échelle: QV LE, M. Ranzato, R. Monga, M. Devin, K. Chen, GS Corrado, J. Dean et Ay Ng. 2012. Construire des fonctionnalités de haut niveau utilisant un apprentissage non supervisé à grande échelle. Dans Proc. 29th Int'l conf. sur l'apprentissage automatique (ICMl'12). 507–514.
- Apprentissage en profondeur à 15pf: classification supervisée et semi-supervisée pour les données scientifiques: T. Kurth et al. 2017. Deep Learning at 15pf: Classification supervisée et semi-supervisée pour les données scientifiques. Dans Proc. Int'l conf. pour l'informatique haute performance, la mise en réseau, le stockage et l'analyse (SC '17). 7: 1–7: 11.
- Petuum: Ep Xing, Q. Ho, W. Dai, JK Kim, J. Wei, S. Lee, X. Zheng, P. Xie, A. Kumar et Y. Yu. 2015. Petuum: une nouvelle plate-forme pour l'apprentissage automatique distribué sur les mégadonnées. Transactions IEEE sur les mégadonnées 1, 2 (2015), 49–67.
- Poseidon: H. Zhang, Z. Hu, J. Wei, P. Xie, G. Kim, Q. Ho et Ep Xing. 2015. Poséidon: une architecture système pour un apprentissage en profondeur GPU efficace sur plusieurs machines. (2015). arXiv: 1512.06216
PS hiérarchique:
- Précision du modèle et compromis d'exécution dans l'apprentissage en profondeur distribué: une étude systématique: S. Gupta, W. Zhang et F. Wang. 2016. Précision du modèle et compromis de runtime dans l'apprentissage en profondeur distribué: une étude systématique. Dans l'IEEE 16e Conférence internationale sur l'exploration de données (ICDM). 171–180.
- Gaia: K. Hsieh, A. Harlap, N. Vijaykumar, D. Konmis, Ganger, PB Gibbons et O. Mutlu. 2017. GAIA: Geo-distributed Machine Learning approchant des vitesses LAN. Dans Proc. 14e Usenix Conf. sur NSDI. 629–647.
- Utilisation du supercalculateur pour accélérer la formation de réseau neuronal: Y. Yu, J. Jiang et X. Chi. 2016. Utilisation du supercalculateur pour accélérer la formation de réseau neuronal. Dans la 22e conférence internationale de l'IEEE sur les systèmes parallèles et distribués (ICPAD). 942–947.
Commentaires: Si vous avez des idées ou si vous souhaitez que tout autre contenu soit ajouté à cette liste, n'hésitez pas à contribuer à la liste.