spark Download - spark Source Code Download

spark

Anderer Quellcode

1.0.0

Herunterladen

Apache Funken

Spark ist eine einheitliche Analyse-Engine für die groß angelegte Datenverarbeitung. Es bietet hochrangige APIs in Scala, Java, Python und R sowie einer optimierten Engine, die allgemeine Berechnungsdiagramme für die Datenanalyse unterstützt. Es unterstützt auch eine Reihe von Tools auf höherer Ebene, einschließlich Spark SQL für SQL und DataFrames, Pandas-API auf Spark für Pandas Workloads, MLLIB für maschinelles Lernen, Graphx für die Graph-Verarbeitung und strukturiertes Streaming für die Stream-Verarbeitung.

Offizielle Version: https://spark.apache.org/
Entwicklungsversion: https://apache.github.io/spark/

Online -Dokumentation

Auf der Projektwebseite finden Sie die neueste Dokumentation für Spark, einschließlich eines Programmierhandbuchs. Diese ReadMe -Datei enthält nur grundlegende Setup -Anweisungen.

Bauenfunken

Spark wird mit Apache Maven erstellt. Um Spark und seine Beispielprogramme zu erstellen, rennen Sie:

./build/mvn -DskipTests clean package

(Sie müssen dies nicht tun, wenn Sie ein vorgefertigtes Paket heruntergeladen haben.)

Eine detailliertere Dokumentation finden Sie auf der Projektstelle unter "Building Spark".

Für allgemeine Entwicklungs -Tipps, einschließlich Informationen zur Entwicklung von Spark mit einer IDE, finden Sie in "Nützlichen Entwickler -Tools".

Interaktive Scala Shell

Der einfachste Weg, Spark zu verwenden, ist die Scala -Shell:

./bin/spark-shell

Versuchen Sie den folgenden Befehl, der 1.000.000.000 zurückgeben sollte:

scala > spark.range( 1000 * 1000 * 1000 ).count()

Interaktive Pythonschale

Wenn Sie Python bevorzugen, können Sie alternativ die Python -Shell verwenden:

./bin/pyspark

Und führen Sie den folgenden Befehl aus, der auch 1.000.000.000 zurückgeben sollte:

 >> > spark . range ( 1000 * 1000 * 1000 ). count ()

Beispielprogramme

Spark wird auch mit mehreren Beispielprogrammen im examples ausgestattet. Um einen von ihnen auszuführen, verwenden Sie ./bin/run-example <class> [params] . Zum Beispiel:

./bin/run-example SparkPi

Wird das PI -Beispiel vor Ort ausführen.

Sie können die Master -Umgebungsvariable festlegen, wenn Sie Beispiele ausführen, um Beispiele an einen Cluster zu senden. Dies kann Spark: // URL, "Garn" sein, um mit Garn zu laufen, und "lokal", um lokal mit einem Faden oder "lokal [n]" zu laufen, um lokal mit N -Fäden zu laufen. Sie können auch einen abgekürzten Klassennamen verwenden, wenn sich die Klasse im examples befindet. Zum Beispiel:

MASTER=spark://host:7077 ./bin/run-example SparkPi

Viele der Beispielprogramme drucken die Verwendung von Hilfe, wenn keine Parameter angegeben werden.

Auslauftests

Das Testen erfordert zuerst das Bauen von Funken. Sobald Spark gebaut ist, können Tests mit:

./dev/run-tests

Bitte beachten Sie die Anleitung zum Ausführen von Tests für ein Modul oder einzelne Tests.

Es gibt auch einen Kubernetes-Integrationstest, siehe Ressourcen-Manager/Kubernetes/Integrationstests/Readme.md

Eine Notiz zu Hadoop -Versionen

Spark verwendet die Hadoop Core-Bibliothek, um mit HDFs und anderen von Hadoop unterstützten Speichersystemen zu sprechen. Da sich die Protokolle in verschiedenen Versionen von Hadoop verändert haben, müssen Sie Spark gegen dieselbe Version erstellen, die Ihr Cluster ausführt.

In der Build -Dokumentation finden Sie in "Angabe der Hadoop -Version und Aktivierung von Garn" detaillierte Anleitungen zum Aufbau für eine bestimmte Verteilung von Hadoop, einschließlich des Aufbaus für bestimmte Bienenstock- und Bienenstockverteilerverteilungen.