Download spark - download do código -fonte spark

spark

Outro código-fonte

1.0.0

Baixar

Apache Spark

O Spark é um mecanismo de análise unificado para processamento de dados em larga escala. Ele fornece APIs de alto nível em Scala, Java, Python e R, e um mecanismo otimizado que suporta gráficos gerais de computação para análise de dados. Ele também suporta um rico conjunto de ferramentas de nível superior, incluindo Spark SQL para SQL e DataFrames, Pandas API na Spark for Pandas Work Cargas, MLLIB para aprendizado de máquina, gráfico para processamento de gráficos e fluxo estruturado para processamento de fluxos.

Versão oficial: https://spark.apache.org/
Versão de desenvolvimento: https://apache.github.io/spark/

Documentação online

Você pode encontrar a mais recente documentação do Spark, incluindo um guia de programação, na página da web do projeto. Este arquivo ReadMe contém apenas instruções de configuração básicas.

Spark de construção

O Spark é construído usando o Apache Maven. Para construir o Spark e seus programas de exemplo, execute:

./build/mvn -DskipTests clean package

(Você não precisa fazer isso se baixar um pacote pré-criado.)

A documentação mais detalhada está disponível no local do projeto, no "Building Spark".

Para dicas de desenvolvimento geral, incluindo informações sobre o desenvolvimento da Spark usando um IDE, consulte "Ferramentas úteis para desenvolvedor".

Shell Scala interativo

A maneira mais fácil de começar a usar o Spark é através do scala Shell:

./bin/spark-shell

Experimente o seguinte comando, que deve retornar 1.000.000.000:

scala > spark.range( 1000 * 1000 * 1000 ).count()

Shell Python interativo

Como alternativa, se você preferir python, pode usar o shell python:

./bin/pyspark

E execute o seguinte comando, que também deve retornar 1.000.000.000:

 >> > spark . range ( 1000 * 1000 * 1000 ). count ()

Exemplo de programas

O Spark também vem com vários programas de amostra no diretório examples . Para executar um deles, use ./bin/run-example <class> [params] . Por exemplo:

./bin/run-example SparkPi

Explicará o exemplo do PI localmente.

Você pode definir a variável de ambiente mestre ao executar exemplos para enviar exemplos para um cluster. Isso pode ser Spark: // URL, "YARN" para rodar em fios e "local" para executar localmente com um thread, ou "local [n]" para executar localmente com n threads. Você também pode usar um nome de classe abreviado se a classe estiver no pacote examples . Por exemplo:

MASTER=spark://host:7077 ./bin/run-example SparkPi

Muitos dos programas de exemplo imprimem o uso da ajuda se nenhum params for fornecido.

Testes de execução

Os testes requer primeiro a faísca de construção. Depois que o Spark for construído, os testes podem ser executados usando:

./dev/run-tests

Consulte as orientações sobre como executar testes para um módulo ou testes individuais.

Há também um teste de integração de Kubernetes, consulte os gerentes de recursos/kubernetes/integração-tests/readme.md

Uma nota sobre versões hadoop

O Spark usa a Biblioteca Core do Hadoop para conversar com HDFs e outros sistemas de armazenamento apoiados pelo Hadoop. Como os protocolos mudaram em diferentes versões do Hadoop, você deve criar o Spark contra a mesma versão que seu cluster executa.

Consulte a documentação de compilação em "Especificando a versão Hadoop e ativando o fio" para obter orientações detalhadas sobre a construção de uma distribuição específica do Hadoop, incluindo a construção de distribuições específicas de hive e thriftserver de colméia.