hbox -Download - hbox Source Code Download

hbox

Anderer Quellcode

v1.8.0

Herunterladen

Wir haben die Repositiry von Xlearning in Hbox umbenannt.

Wenn Sie einen lokalen Klon des Repositorys haben, aktualisieren Sie bitte Ihre Remote -URL:

git remote set-url origin https://github.com/Qihoo360/hbox.git

HBox ist eine bequeme und effiziente Planungsplattform in Kombination mit den Big Data und künstlichen Intelligenz und Unterstützung für eine Vielzahl von maschinellen Lernen, Deep -Learning -Frameworks. Hbox läuft auf dem Hadoop -Garn und hat Deep -Learning -Frameworks wie Tensornet, Tensorflow, Mxnet, Caffe, Theano, Pytorch, Keras, Xgboost ， Horovod, OpenMPI, Tensor2tensor integriert. Unterstützen Sie den GPU -Ressourcenplan, führen Sie in Docker und RESTful API -Verwaltungsschnittstelle aus. Hbox hat die zufriedenstellende Skalierbarkeit und Kompatibilität.

中文文档

Architektur

Architektur
In Hbox gibt es drei wesentliche Komponenten:

Kunde : Starten Sie und erhalten Sie den Status der Anwendung.
ApplicationMaster (AM) : Die Rolle für den internen Zeitplan und den Lebenszyklus -Manager, einschließlich der Eingabedatenverteilung und des Containermanagements.
Container : Der tatsächliche Ausführende der Anwendung, um den Fortschritt von Worker oder PS (Parameter Server) zu starten, den Status des Fortschritts in AM zu überwachen und zu melden und die Ausgabe zu speichern, insbesondere den Tensorboard -Dienst für die Tensorflow -Anwendung.

Funktionen

1 Unterstützen Sie mehrere Deep -Lern -Frameworks

Neben dem verteilten Modus des Tensorflow- und MXNET -Frameworks unterstützt Hbox den eigenständigen Modus aller Deep -Lern -Frameworks wie Caffe, Theano, Pytorch. Darüber hinaus ermöglicht HBox die benutzerdefinierten Versionen und die Mehrversion von Frameworks flexibel.

2 Unified Data Management basierend auf HDFs

Trainingsdaten und Modellergebnisse auf HDFS (Support S3). HBox ist aktiviert, um die Eingabestrategie für die Eingabedaten --input durch Einstellen des Parameters --input-strategy oder hbox.input.strategy -Konfiguration anzugeben. HBOX unterstützt drei Möglichkeiten, um die HDFS -Eingabedaten zu lesen:

Download : AM durchquert alle Dateien unter dem angegebenen HDFS -Pfad und verteilt Daten an Arbeiter in Dateien. Jeder Arbeiter lädt Dateien von der Fernbedienung nach lokal herunter.
Platzhalter : Der Unterschied zum Download -Modus besteht darin, dass AM die zugehörige HDFS -Dateiliste an die Arbeitnehmer senden kann. Der Prozess in Worker las die Daten von HDFs direkt aus.
InputFormat : Integrierte die inputFormat -Funktion von MapReduce, HBOX ermöglicht dem Benutzer, eine der Implementierung von InputFormat für die Eingabedaten anzugeben. AM teilt die Eingabedaten und weist den verschiedenen Arbeitern Fragmente zu. Jeder Arbeiter übergibt die zugewiesenen Fragmente über die Pipeline zum Ausführungsfortschritt.

Ähnlich wie bei der Lesestrategie können die Ausgangsstrategie für die Ausgabedaten --output angeben, indem der Parameter- --output-strategy oder hbox.output.strategy -Konfiguration festgelegt wird. Es gibt zwei Arten von Ergebnisausgabemodi:

Upload : Nach Abschluss des Programms hochladen jeder Arbeiter das lokale Verzeichnis der Ausgabe direkt in den angegebenen HDFS -Pfad. Mit der Schaltfläche "gespeichertes Modell" auf der Webschnittstelle kann der Benutzer das Intermediate -Ergebnis während der Ausführung auf Remote hochladen.
OutputFormat : Integriert die Funktion outputFormat von MapReduce, HBOX ermöglicht es dem Benutzer, eine der Implementierung von OutputFormat für das Speichern des Ergebnisses in HDFs anzugeben.

Weitere Details Siehe Datenverwaltung

3 Visualisierungsanzeige

Die Anwendungsschnittstelle kann in vier Teile unterteilt werden:

Alle Container : Zeigen Sie die Containerliste und die entsprechenden Informationen an, einschließlich des Containerhosts, der Containerrolle, der aktuellen Containerstatus, der Startzeit, der Endzeit und des aktuellen Fortschritts.
Tensorboard anzeigen : Wenn Sie den Dienst des Tensorboards starten, wenn der Anwendungsart TensorFlow ist, geben Sie den Link zur Eingabe des Tensorboards für die Echtzeitansicht an.
Modell speichern : Wenn die Anwendung über die Ausgabe verfügt, kann der Benutzer die Zwischenausgabe während der Ausführung der Anwendung über die Schaltfläche "Modell speichern" auf den angegebenen HDFS -Pfad hochladen. Zeigen Sie nach Abschluss des Uploads die Liste des mittleren gespeicherten Pfades an.
Worker METRIX : Zeigen Sie die Ressourcenverbrauchsinformationsmetriken der einzelnen Mitarbeiter an.
Wie unten gezeigt:

Garn1

4 kompatibel mit dem Code in nativen Frameworks

Mit Ausnahme der automatischen Konstruktion des ClusterSpec im TensorFlow -Framework des verteilten Modus kann das Programm im Standalone -Modus TensorFlow und andere Deep -Learning -Frameworks direkt bei Hbox ausgeführt werden.

Kompilierungs- und Bereitstellungsanweisungen

1 Kompilierungsumgebungsanforderungen

JDK> = 1,8
Maven> = 3,6,3

2 Kompilierungsmethode

Führen Sie den folgenden Befehl im Stammverzeichnis des Quellcode aus:

./mvnw package

Nach dem Kompilieren wird ein Distributionspaket namens hbox-1.1-dist.tar.gz im Stammverzeichnis unter core/target generiert. Wenn Sie das Verteilungspaket auspacken, werden die folgenden Unterverzeichnisse im Root -Verzeichnis erstellt:

Bin: Skripte zum Verwalten von Bewerbungsjobs
SBIN: Skripte für den Verlaufsdienst
lib: Abhängigkeiten Gläser
libExec: gemeinsame Skripte und HBox-site.xml-Konfigurationsbeispiele
HBox-*. Jar: Hbox-Gläser

Um Konfigurationen einzurichten, muss der Benutzer HBOX_CONF_DIR auf einen Ordner einstellen, der eine gültige hbox-site.xml enthält, oder diesen Ordner mit $HBOX_HOME/conf verlinken.

3 Anforderungen der Bereitstellungsumgebung

CentOS 7.2
Java> = 1,8
Hadoop = 2,6 - 3,2 (GPU benötigt 3.1+)
[optionale] abhängige Umgebung für Deep -Lern -Frameworks an den Clusterknoten wie Tensorflow, Numpy, Caffe.

4 HBox Client -Bereitstellungshandbuch

Konfigurieren Sie unter dem Verzeichnis "Conf" des Auspackverteilungspakets "$ hbox_home" die zugehörigen Dateien:

HBOX-ENV.SH: Setzen Sie die Umgebungsvariablen, wie z. B.:
- Java_Home
- Hadoop_conf_dir
hbox-site.xml: Konfigurieren Sie verwandte Eigenschaften. Beachten Sie, dass die mit dem Verlaufsdienst verbundenen Eigenschaften mit dem konfiguriert sein müssen, was beim Start des Verlaufsdienstes konfiguriert ist. Weitere Informationen finden Sie im Konfigurationsteil 。
log4j.properties: configure die Protokollebene

5 Startmethode des HBox -Verlaufsdienstes [Optional]

Führen Sie $HBOX_HOME/sbin/start-history-server.sh aus.

Schneller Start

Verwenden Sie $HBOX_HOME/bin/hbox-submit , um die Anwendung an Cluster im HBox-Client einzureichen. Hier sind das Beispiel für die TensorFlow -Anwendung.

1 Laden Sie Daten in HDFs hoch

Laden Sie das Verzeichnis "Daten" unter das Root of Auspackverteilungspaket auf HDFS hoch

 cd $HBOX_HOME  
hadoop fs -put data /tmp/

2 Senden

 cd $HBOX_HOME/examples/tensorflow
$HBOX_HOME/bin/hbox-submit 
   --app-type "tensorflow" 
   --app-name "tf-demo" 
   --input /tmp/data/tensorflow#data 
   --output /tmp/tensorflow_model#model 
   --files demo.py,dataDeal.py 
   --worker-memory 10G 
   --worker-num 2 
   --worker-cores 3 
   --ps-memory 1G 
   --ps-num 1 
   --ps-cores 2 
   --queue default 
   python demo.py --data_path=./data --save_path=./model --log_dir=./eventLog --training_epochs=10

Die Bedeutung der Parameter ist wie folgt:

Eigenschaftsname	Bedeutung
App-Namen	Anwendungsname als "TF-Demo"
App-Typ	Anwendungstyp als "Tensorflow"
Eingang	Eingabedatei, HDFS -Pfad ist "/tmp/data/TensorFlow", die auf lokale Dir "./Data" bezogen werden.
Ausgabe	Ausgabedatei ， HDFS -Pfad "/tmp/TensorFlow_Model" in Bezug auf lokale Dir ./Model ""
Dateien	Anwendungsprogramm und erforderliche lokale Dateien, einschließlich Demo.py, datAdeal.py
Arbeitergedächtnis	Die für den Arbeitsprozess zu verwendende Speichermenge beträgt 10 GB
Arbeiter-Num	Die Anzahl der für die Anwendung zu verwendenden Arbeitercontainer beträgt 2
Arbeiterkorte	Die Anzahl der für den Arbeitsprozess zu verwendenden Kerne beträgt 3
PS-Memory	Die für den PS -Prozesse zu verwendende Speichermenge beträgt 1 GB
PS-Num	Die Anzahl der für die Anwendung zu verwendenden PS -Container beträgt 1
PS-Cores	Die Anzahl der für den PS -Prozess zu verwendenden Kerne beträgt 2
Warteschlange	die Warteschlange, an die dieser Antrag eingereicht wird

Weitere Informationen finden Sie im Parameter Teil。 Senden 。

FAQ

HBox -FAQ

Autoren

Hbox wurde vom Team im GitHub entworfen, verfasst, überprüft und getestet:

@Yuance li, @wen ouyang, @runying jia, @yuhan jia, @lei Wang

Kontaktieren Sie uns

Expandieren

Zusätzliche Informationen

Version v1.8.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-28
Größe 140.04MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

hbox

Architektur

Funktionen

1 Unterstützen Sie mehrere Deep -Lern -Frameworks

2 Unified Data Management basierend auf HDFs

3 Visualisierungsanzeige

4 kompatibel mit dem Code in nativen Frameworks

Kompilierungs- und Bereitstellungsanweisungen

1 Kompilierungsumgebungsanforderungen

2 Kompilierungsmethode

3 Anforderungen der Bereitstellungsumgebung

4 HBox Client -Bereitstellungshandbuch

5 Startmethode des HBox -Verlaufsdienstes [Optional]

Schneller Start

1 Laden Sie Daten in HDFs hoch

2 Senden

FAQ

Autoren

Kontaktieren Sie uns

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf