O Spark é um mecanismo de análise unificado para processamento de dados em larga escala. Ele fornece APIs de alto nível em Scala, Java, Python e R, e um mecanismo otimizado que suporta gráficos gerais de computação para análise de dados. Ele também suporta um rico conjunto de ferramentas de nível superior, incluindo Spark SQL para SQL e DataFrames, Pandas API na Spark for Pandas Work Cargas, MLLIB para aprendizado de máquina, gráfico para processamento de gráficos e fluxo estruturado para processamento de fluxos.
Você pode encontrar a mais recente documentação do Spark, incluindo um guia de programação, na página da web do projeto. Este arquivo ReadMe contém apenas instruções de configuração básicas.
O Spark é construído usando o Apache Maven. Para construir o Spark e seus programas de exemplo, execute:
./build/mvn -DskipTests clean package(Você não precisa fazer isso se baixar um pacote pré-criado.)
A documentação mais detalhada está disponível no local do projeto, no "Building Spark".
Para dicas de desenvolvimento geral, incluindo informações sobre o desenvolvimento da Spark usando um IDE, consulte "Ferramentas úteis para desenvolvedor".
A maneira mais fácil de começar a usar o Spark é através do scala Shell:
./bin/spark-shellExperimente o seguinte comando, que deve retornar 1.000.000.000:
scala > spark.range( 1000 * 1000 * 1000 ).count()Como alternativa, se você preferir python, pode usar o shell python:
./bin/pysparkE execute o seguinte comando, que também deve retornar 1.000.000.000:
>> > spark . range ( 1000 * 1000 * 1000 ). count () O Spark também vem com vários programas de amostra no diretório examples . Para executar um deles, use ./bin/run-example <class> [params] . Por exemplo:
./bin/run-example SparkPiExplicará o exemplo do PI localmente.
Você pode definir a variável de ambiente mestre ao executar exemplos para enviar exemplos para um cluster. Isso pode ser Spark: // URL, "YARN" para rodar em fios e "local" para executar localmente com um thread, ou "local [n]" para executar localmente com n threads. Você também pode usar um nome de classe abreviado se a classe estiver no pacote examples . Por exemplo:
MASTER=spark://host:7077 ./bin/run-example SparkPiMuitos dos programas de exemplo imprimem o uso da ajuda se nenhum params for fornecido.
Os testes requer primeiro a faísca de construção. Depois que o Spark for construído, os testes podem ser executados usando:
./dev/run-testsConsulte as orientações sobre como executar testes para um módulo ou testes individuais.
Há também um teste de integração de Kubernetes, consulte os gerentes de recursos/kubernetes/integração-tests/readme.md
O Spark usa a Biblioteca Core do Hadoop para conversar com HDFs e outros sistemas de armazenamento apoiados pelo Hadoop. Como os protocolos mudaram em diferentes versões do Hadoop, você deve criar o Spark contra a mesma versão que seu cluster executa.
Consulte a documentação de compilação em "Especificando a versão Hadoop e ativando o fio" para obter orientações detalhadas sobre a construção de uma distribuição específica do Hadoop, incluindo a construção de distribuições específicas de hive e thriftserver de colméia.
Consulte o Guia de Configuração na documentação on -line para obter uma visão geral sobre como configurar o Spark.
Revise a contribuição do Spark Guide para obter informações sobre como começar a contribuir para o projeto.