spark下载 - spark源代码下载

spark

其他源码

1.0.0

下载

Apache Spark

Spark是用于大规模数据处理的统一分析引擎。它在Scala，Java，Python和R中提供高级API，以及支持用于数据分析的一般计算图的优化引擎。它还支持一组丰富的高级工具集，包括用于SQL的SPARK SQL和DataFrames，Pandas api in Spark for Pandas工作负载，用于机器学习的MLLIB，用于图形处理的GraphX以及用于流处理的结构化流媒体。

官方版本：https：//spark.apache.org/
开发版本：https：//apache.github.io/spark/

在线文档

您可以在项目网页上找到最新的Spark文档，包括编程指南。此读数文件仅包含基本的设置指令。

建筑火花

Spark是使用Apache Maven构建的。要构建Spark及其示例程序，请运行：

./build/mvn -DskipTests clean package

（如果您下载了预制套件，则无需执行此操作。）

在“建筑Spark”的项目网站上可以找到更详细的文档。

有关一般开发技巧，包括使用IDE开发Spark的信息，请参阅“有用的开发人员工具”。

交互式scala壳

开始使用Spark的最简单方法是通过Scala shell：

./bin/spark-shell

尝试以下命令，该命令应返回1,000,000,000：

scala > spark.range( 1000 * 1000 * 1000 ).count()

交互式python壳

另外，如果您喜欢Python，则可以使用Python Shell：

./bin/pyspark

并运行以下命令，该命令还应返回1,000,000,000：

 >> > spark . range ( 1000 * 1000 * 1000 ). count ()

示例程序

SPARK还带有examples目录中的几个示例程序。要运行其中一个，请使用./bin/run-example <class> [params] 。例如：

./bin/run-example SparkPi

将在本地运行PI示例。

在运行示例时，您可以将主环境变量设置为群集。这可以是火花：// URL，“纱”可以在纱线上运行，而“本地”可以用一个线程在本地运行，或者“ local [n]”以N线程在本地运行。如果类在examples软件包中，您也可以使用缩写的类名称。例如：

MASTER=spark://host:7077 ./bin/run-example SparkPi

如果没有给出参数，则许多示例程序打印使用情况有所帮助。

运行测试

测试首先需要建造火花。一旦建立了火花，就可以使用：

./dev/run-tests

请查看有关如何运行模块测试或单个测试的指南。

还有一个Kubernetes集成测试，请参阅资源经理/Kubernetes/Integration-Tests/readme.md

关于Hadoop版本的注释

Spark使用Hadoop Core库与HDFS和其他Hadoop支持的存储系统进行对话。由于协议在不同版本的Hadoop中发生了变化，因此您必须针对群集运行的相同版本构建火花。

请通过“指定Hadoop版本并启用纱线”的构建文档，以获取有关Hadoop特定分布的详细指南，包括为特定的Hive和Hive Thriftserver分布构建。

配置

请参阅在线文档中的配置指南，以获取有关如何配置Spark的概述。

贡献

请查看有关Spark指南的贡献，以获取有关如何开始为该项目做出贡献的信息。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-02-18
大小 59.58MB
来自于 Github

spark

Apache Spark

在线文档

建筑火花

交互式scala壳

交互式python壳

示例程序

运行测试

关于Hadoop版本的注释

配置

贡献

spark数字藏品app

火花光纤

变形金刚：黑暗火花崛起

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf