Téléchargement hbox - Téléchargement du code source hbox

hbox

Autre code source

v1.8.0

Télécharger

Nous avons renommé la référentiel de Xlearning à Hbox.

Si vous avez un clone local du référentiel, veuillez mettre à jour votre URL distante:

git remote set-url origin https://github.com/Qihoo360/hbox.git

Hbox est une plate-forme de planification pratique et efficace combinée avec les mégadonnées et l'intelligence artificielle, la prise en charge d'une variété de cadres d'apprentissage automatique. Hbox fonctionne sur le fil Hadoop et a intégré des cadres d'apprentissage en profondeur tels que Tensornet, TensorFlow, Mxnet, Caffe, Theano, Pytorch, Keras, Xgboost ， Horovod, Openmpi, Tensor2tensor. Prise en charge du calendrier des ressources GPU, exécuté dans Docker et Resful API Management Interface. Hbox a l'évolutivité et la compatibilité satisfaisantes.

中文文档

Architecture

architecture
Il y a trois composants essentiels dans HBOX:

Client : Démarrez et obtenez l'état de l'application.
ApplicationMaster (AM) : le rôle du programme interne et du gestionnaire de cycle de vie, y compris la distribution des données d'entrée et la gestion des conteneurs.
Conteneur : L'exécuteur réel de l'application pour démarrer la progression du travailleur ou du PS (serveur de paramètres), surveillez et signalez l'état de la progression vers AM, et enregistrez la sortie, en particulier démarrer le service Tensorboard pour l'application TensorFlow.

Fonctions

1 Soutenez plusieurs cadres d'apprentissage en profondeur

Outre le mode distribué des frameworks TensorFlow et MXNET, HBOX prend en charge le mode autonome de tous les cadres d'apprentissage en profondeur tels que Caffe, Theano, Pytorch. De plus, HBOX permet de manière flexible les versions personnalisées et la multi-version des frameworks.

2 Gestion des données unifiées basée sur HDFS

Données de formation et résultats du modèle Enregistrer sur HDFS (support S3). HBOX est permis de spécifier la stratégie d'entrée pour les données d'entrée --input en définissant le paramètre --input-strategy ou hbox.input.strategy Configuration. Hbox prend en charge trois façons de lire les données d'entrée HDFS:

Télécharger : AM traverse tous les fichiers sous le chemin HDFS spécifié et distribue des données aux travailleurs dans des fichiers. Chaque travailleur télécharge des fichiers de la télécommande à la local.
Placeholder : La différence avec le mode de téléchargement est que je envoie la liste des fichiers HDFS associée aux travailleurs. Le processus dans le travailleur a lu directement les données de HDFS.
InputFormat : intégré la fonction InputFormat de MapReduce, Hbox permet à l'utilisateur de spécifier l'une des implémentations de InputFormat pour les données d'entrée. AM divise les données d'entrée et attribue des fragments aux différents travailleurs. Chaque travailleur passe les fragments attribués à travers le pipeline à la progression de l'exécution.

Semblable à la stratégie de lecture, HBOX permet de spécifier la stratégie de sortie pour les données de sortie --output en définissant le paramètre --output-strategy ou la configuration hbox.output.strategy . Il existe deux types de modes de sortie de résultat:

Téléchargement : une fois le programme terminé, chaque travailleur télécharge directement le répertoire local de la sortie sur le chemin HDFS spécifié. Le bouton, "modèle enregistré", sur l'interface Web, permet à l'utilisateur de télécharger le résultat intermédiaire à distance pendant l'exécution.
OutputFormat : Intégration de la fonction OutputFormat de MapReduce, HBox permet à l'utilisateur de spécifier l'une des implémentations de OutputFormat pour enregistrer le résultat à HDFS.

Plus de détails voir la gestion des données

3 affichage de visualisation

L'interface d'application peut être divisée en quatre parties:

Tous les conteneurs : Affichez la liste des conteneurs et les informations correspondantes, y compris l'hôte de conteneur, le rôle de conteneur, l'état actuel du conteneur, l'heure de début, l'heure de fin, la progression actuelle.
Affichage de Tensorboard : Si définitif pour démarrer le service de Tensorboard lorsque le type d'application est TensorFlow, fournissez le lien pour entrer le Tensorboard pour une vue en temps réel.
Enregistrer le modèle : Si l'application a la sortie, l'utilisateur peut télécharger la sortie intermédiaire sur le chemin HDFS spécifié lors de l'exécution de l'application via le bouton de "Save Model". Une fois le téléchargement terminé, affichez la liste du chemin enregistré intermédiaire.
Metrix du travailleur : Affichez les mesures d'informations sur l'utilisation des ressources de chaque travailleur.
Comme indiqué ci-dessous:

yarn1

4 compatible avec le code dans les cadres natifs

À l'exception de la construction automatique du Cluterspec au cadre de TensorFlow en mode distribué, le programme en mode autonome TensorFlow et d'autres cadres d'apprentissage en profondeur peuvent être exécutés directement sur HBOX.

Instructions de compilation et de déploiement

1 Exigences d'environnement de compilation

JDK> = 1,8
Maven> = 3,6.3

2 Méthode de compilation

Exécutez la commande suivante dans le répertoire racine du code source:

./mvnw package

Après la compilation, un package de distribution nommé hbox-1.1-dist.tar.gz sera généré sous core/target dans le répertoire racine. Déballage du package de distribution, les sous-répertoires suivants seront générés dans le répertoire racine:

bac: scripts pour gérer les emplois des candidatures
SBIN: Scripts for History Service
lib: pots de dépendances
libexec: scripts communs et exemples de configuration hbox site.xml
hbox - *. Jar: pots hbox

Pour configurer des configurations, l'utilisateur doit définir HBOX_CONF_DIR dans un dossier contenant un hbox-site.xml valide, ou lier ce dossier à $HBOX_HOME/conf .

3 Exigences d'environnement de déploiement

Centos 7.2
Java> = 1,8
Hadoop = 2,6 - 3,2 (GPU nécessite 3,1+)
Environnement dépendant [facultatif] pour les cadres d'apprentissage en profondeur aux nœuds de cluster, tels que Tensorflow, Numpy, Caffe.

4 Guide de déploiement client HBOX

Dans le cadre du répertoire "conf" du package de distribution de déballage "$ hbox_home", configurez les fichiers associés:

hbox-env.sh: définissez les variables d'environnement, telles que:
- Java_home
- Hadoop_conf_dir
hbox-site.xml: configurer les propriétés associées. Notez que les propriétés associées au service d'historique doivent être cohérentes avec ce qui a configuré lorsque le service d'historique a démarré. Pour plus de détails, veuillez consulter la partie de configuration 。
log4j.properties: Configurez le niveau de journal

5 Méthode de démarrage du service d'historique HBOX [Facultatif]

Exécutez $HBOX_HOME/sbin/start-history-server.sh .

Démarrage rapide

Utilisez $HBOX_HOME/bin/hbox-submit pour soumettre l'application au cluster dans le client hbox. Voici l'exemple de soumission pour la demande TensorFlow.

1 télécharger des données sur HDFS

Téléchargez le répertoire "Data" sous la racine du package de distribution de déballage à HDFS

 cd $HBOX_HOME  
hadoop fs -put data /tmp/

2 Soumettre

 cd $HBOX_HOME/examples/tensorflow
$HBOX_HOME/bin/hbox-submit 
   --app-type "tensorflow" 
   --app-name "tf-demo" 
   --input /tmp/data/tensorflow#data 
   --output /tmp/tensorflow_model#model 
   --files demo.py,dataDeal.py 
   --worker-memory 10G 
   --worker-num 2 
   --worker-cores 3 
   --ps-memory 1G 
   --ps-num 1 
   --ps-cores 2 
   --queue default 
   python demo.py --data_path=./data --save_path=./model --log_dir=./eventLog --training_epochs=10

La signification des paramètres est la suivante:

Nom de propriété	Signification
nom d'application	Nom de l'application comme "TF-Demo"
type d'application	Type d'application comme "TensorFlow"
saisir	Fichier d'entrée, le chemin HDFS est "/ tmp / data / tensorflow" lié au dir local "./data"
sortir	Fichier de sortie ， Le chemin HDFS est "/ tmp / tensorflow_model" lié au dir local "./Model"
fichiers	Programme d'application et fichiers locaux requis, y compris Demo.py, datadeal.py
mémoire de travailleur	La quantité de mémoire à utiliser pour le processus de travailleur est de 10 Go
travailleuse	Le nombre de conteneurs de travailleurs à utiliser pour l'application est 2
travailleurs	Le nombre de noyaux à utiliser pour le processus de travailleur est 3
PS-mémoire	quantité de mémoire à utiliser pour le processus PS est de 1 Go
PS-NUM	Le nombre de conteneurs PS à utiliser pour l'application est 1
ps-cores	Le nombre de noyaux à utiliser pour le processus PS est 2
file d'attente	la file d'attente à laquelle la demande soumet