Download do hbox - download do código -fonte do hbox

hbox

Outro código-fonte

v1.8.0

Baixar

Renomeamos a repositir de Xlearning para Hbox.

Se você tiver um clone local do repositório, atualize seu URL remoto:

git remote set-url origin https://github.com/Qihoo360/hbox.git

O Hbox é uma plataforma de agendamento conveniente e eficiente, combinada com o big data e a inteligência artificial, suporte para uma variedade de aprendizado de máquina, estruturas de aprendizado profundo. O Hbox está em execução no Yarn Hadoop e integrou estruturas de aprendizado profundo, como Tensornet, Tensorflow, MxNet, Caffe, Theano, Pytorch, Keras, Xgboost, Horovod, OpenMPI, Tensor2tensor. Apoie o cronograma de recursos da GPU, executado na interface Docker e RESTful API Management. O HBOX possui a escalabilidade e compatibilidade satisfatórias.

中文文档

Arquitetura

arquitetura
Existem três componentes essenciais no Hbox:

Cliente : Inicie e obtenha o estado do aplicativo.
ApplicationMaster (AM) : a função do cronograma interno e do gerenciador de ciclo de vida, incluindo a distribuição de dados de entrada e o gerenciamento de contêineres.
Container : o executor real do aplicativo para iniciar o progresso do trabalhador ou PS (Parameter Server), monitorar e relatar o status do progresso à AM e salvar a saída, inicie especialmente o serviço de tensorboard para aplicativo TensorFlow.

Funções

1 Suporte a várias estruturas de aprendizado profundo

Além do modo distribuído das estruturas TensorFlow e MXNET, o HBOX suporta o modo independente de todas as estruturas de aprendizado profundo, como Caffe, Theano, Pytorch. Além disso, o HBOX permite as versões personalizadas e a versão múltipla das estruturas de maneira flexível.

2 Gerenciamento de dados unificado com base no HDFS

Dados de treinamento e resultado do modelo Salvar no HDFS (Suporte S3). O Hbox pode especificar a estratégia de entrada para os dados de entrada --input Input, configurando o parâmetro --input-strategy ou hbox.input.strategy Configuration. Hbox suporta três maneiras de ler os dados de entrada HDFS:

Download : AM atravessa todos os arquivos no caminho HDFS especificado e distribui dados para os trabalhadores nos arquivos. Cada trabalhador baixar arquivos do controle remoto para o local.
Disponível : a diferença no modo de download é que eu sou a lista de arquivos HDFS relacionada aos trabalhadores. O processo do trabalhador leu os dados do HDFS diretamente.
InputFormat : integrado A função InputFormat do MapReduce, o HBOX permite ao usuário especificar qualquer implementação do InputFormat para os dados de entrada. AM divide os dados de entrada e atribui fragmentos aos diferentes trabalhadores. Cada trabalhador passa os fragmentos atribuídos pelo pipeline para o progresso da execução.

Semelhante com a estratégia de leitura, o HBOX permite especificar a estratégia de saída para os dados de saída --output saída, configurando o parâmetro --output-strategy ou hbox.output.strategy Configuration. Existem dois tipos de modos de saída de resultado:

Upload : após o término do programa, cada trabalhador carrega o diretório local da saída para o caminho HDFS especificado diretamente. O botão, "Modelo Salvo", na interface da Web, permite que o usuário faça o upload do resultado intermediário para remoto durante a execução.
OUTPUTFORMAT : integrado A função O outputFormat do MapReduce, o HBOX permite ao usuário especificar qualquer uma das implementação do OutputFormat para salvar o resultado no HDFS.

Mais detalhes, consulte o gerenciamento de dados

3 Exibição de visualização

A interface do aplicativo pode ser dividida em quatro partes:

Todos os contêineres : Exiba a lista de contêineres e as informações correspondentes, incluindo o host de contêiner, função de contêiner, estado atual do contêiner, tempo de início, tempo de acabamento, progresso atual.
View Tensorboard : Se configurado para iniciar o serviço do Tensorboard quando o tipo de aplicativo for Tensorflow, forneça o link para entrar no tensorboard para visualização em tempo real.
Salvar modelo : se o aplicativo tiver a saída, o usuário poderá fazer upload da saída intermediária no caminho HDFS especificado durante a execução do aplicativo através do botão de "Salvar Model". Após o término do upload, exiba a lista do caminho salvo intermediário.
METRIX DE TRABALHADOR : Exiba as métricas de informações de uso de recursos de cada trabalhador.
Como mostrado abaixo:

YARN1

4 Compatível com o código em estruturas nativas

Exceto a construção automática do clusterspec na estrutura de tensorflow do modo distribuído, o programa no modo independente do modo tensorflow e outras estruturas de aprendizado profundo podem ser executadas diretamente no HBOX.

Instruções de compilação e implantação

1 Requisitos de ambiente de compilação

jdk> = 1.8
Maven> = 3.6.3

2 Método de compilação

Execute o seguinte comando no diretório raiz do código -fonte:

./mvnw package

Após a compilação, um pacote de distribuição chamado hbox-1.1-dist.tar.gz será gerado em core/target no diretório raiz. Deseppalhando o pacote de distribuição, os seguintes subdiretórios serão gerados no diretório raiz:

BIN: scripts para gerenciar trabalhos de aplicativo
SBIN: Scripts for History Service
Lib: Jarros de dependências
Libexec: Scripts comuns e exemplos de configuração hbox-site.xml
Hbox-*. Jar: Jarros Hbox

Para configurar as configurações, o usuário precisa definir HBOX_CONF_DIR como uma pasta contendo um hbox-site.xml válido ou vincular esta pasta a $HBOX_HOME/conf .

3 Requisitos de ambiente de implantação

CentOS 7.2
Java> = 1.8
Hadoop = 2,6 - 3,2 (a GPU requer 3,1+)
[Opcional] Ambiente dependente para estruturas de aprendizado profundo nos nós do cluster, como Tensorflow, Numpy, Caffe.

4 Guia de implantação do cliente Hbox

No diretório "conf" do pacote de distribuição de desempacotar "$ hbox_home", configure os arquivos relacionados:

hbox-env.sh: defina as variáveis de ambiente, como:
- Java_home
- Hadoop_conf_dir
hbox-site.xml: configure propriedades relacionadas. Observe que as propriedades associadas ao serviço de história precisam ser consistentes com o que foi configurado quando o serviço de história começou. Para mais detalhes, consulte a parte da configuração 。
log4j.properties: Configure o nível de log

5 Método de início do serviço de história do Hbox [Opcional]

Execute $HBOX_HOME/sbin/start-history-server.sh .

Início rápido

Use $HBOX_HOME/bin/hbox-submit para enviar o aplicativo para cluster no cliente hbox. Aqui estão o exemplo de envio para o aplicativo TensorFlow.

1 Carregar dados para HDFS

Carregue o diretório "dados" sob a raiz do pacote de distribuição de descompacagem para HDFS

 cd $HBOX_HOME  
hadoop fs -put data /tmp/

2 Enviar

 cd $HBOX_HOME/examples/tensorflow
$HBOX_HOME/bin/hbox-submit 
   --app-type "tensorflow" 
   --app-name "tf-demo" 
   --input /tmp/data/tensorflow#data 
   --output /tmp/tensorflow_model#model 
   --files demo.py,dataDeal.py 
   --worker-memory 10G 
   --worker-num 2 
   --worker-cores 3 
   --ps-memory 1G 
   --ps-num 1 
   --ps-cores 2 
   --queue default 
   python demo.py --data_path=./data --save_path=./model --log_dir=./eventLog --training_epochs=10

O significado dos parâmetros é o seguinte:

Nome da propriedade	Significado
nome de aplicativo	Nome do aplicativo como "TF-Demo"
Tipo de aplicativo	Tipo de aplicativo como "tensorflow"
entrada	Arquivo de entrada, o caminho HDFS é "/tmp/dados/tensorflow" relacionado ao dir local "./data"
saída	Arquivo de saída ， O caminho HDFS é "/tmp/tensorflow_model" relacionado ao dir local "./model"
arquivos	Programa de aplicativos e arquivos locais necessários, incluindo Demo.py, Datadeal.py
Memória do trabalhador	A quantidade de memória a ser usada para o processo do trabalhador é de 10 GB
trabalhador-num	O número de contêineres de trabalhador a ser usado para o aplicativo é 2
trabalhadores-núcleos	O número de núcleos a serem usados para o processo do trabalhador é 3
PS-Memória	A quantidade de memória a ser usada para o processo PS é de 1 GB
PS-Num	O número de contêineres PS a serem usados para o aplicativo é 1
PS-CORES	O número de núcleos a serem usados para o processo PS é 2
fila	a fila que o pedido enviou para