Spark是用于大规模数据处理的统一分析引擎。它在Scala,Java,Python和R中提供高级API,以及支持用于数据分析的一般计算图的优化引擎。它还支持一组丰富的高级工具集,包括用于SQL的SPARK SQL和DataFrames,Pandas api in Spark for Pandas工作负载,用于机器学习的MLLIB,用于图形处理的GraphX以及用于流处理的结构化流媒体。
您可以在项目网页上找到最新的Spark文档,包括编程指南。此读数文件仅包含基本的设置指令。
Spark是使用Apache Maven构建的。要构建Spark及其示例程序,请运行:
./build/mvn -DskipTests clean package(如果您下载了预制套件,则无需执行此操作。)
在“建筑Spark”的项目网站上可以找到更详细的文档。
有关一般开发技巧,包括使用IDE开发Spark的信息,请参阅“有用的开发人员工具”。
开始使用Spark的最简单方法是通过Scala shell:
./bin/spark-shell尝试以下命令,该命令应返回1,000,000,000:
scala > spark.range( 1000 * 1000 * 1000 ).count()另外,如果您喜欢Python,则可以使用Python Shell:
./bin/pyspark并运行以下命令,该命令还应返回1,000,000,000:
>> > spark . range ( 1000 * 1000 * 1000 ). count ()SPARK还带有examples目录中的几个示例程序。要运行其中一个,请使用./bin/run-example <class> [params] 。例如:
./bin/run-example SparkPi将在本地运行PI示例。
在运行示例时,您可以将主环境变量设置为群集。这可以是火花:// URL,“纱”可以在纱线上运行,而“本地”可以用一个线程在本地运行,或者“ local [n]”以N线程在本地运行。如果类在examples软件包中,您也可以使用缩写的类名称。例如:
MASTER=spark://host:7077 ./bin/run-example SparkPi如果没有给出参数,则许多示例程序打印使用情况有所帮助。
测试首先需要建造火花。一旦建立了火花,就可以使用:
./dev/run-tests请查看有关如何运行模块测试或单个测试的指南。
还有一个Kubernetes集成测试,请参阅资源经理/Kubernetes/Integration-Tests/readme.md
Spark使用Hadoop Core库与HDFS和其他Hadoop支持的存储系统进行对话。由于协议在不同版本的Hadoop中发生了变化,因此您必须针对群集运行的相同版本构建火花。
请通过“指定Hadoop版本并启用纱线”的构建文档,以获取有关Hadoop特定分布的详细指南,包括为特定的Hive和Hive Thriftserver分布构建。
请参阅在线文档中的配置指南,以获取有关如何配置Spark的概述。
请查看有关Spark指南的贡献,以获取有关如何开始为该项目做出贡献的信息。