Spark ist eine einheitliche Analyse-Engine für die groß angelegte Datenverarbeitung. Es bietet hochrangige APIs in Scala, Java, Python und R sowie einer optimierten Engine, die allgemeine Berechnungsdiagramme für die Datenanalyse unterstützt. Es unterstützt auch eine Reihe von Tools auf höherer Ebene, einschließlich Spark SQL für SQL und DataFrames, Pandas-API auf Spark für Pandas Workloads, MLLIB für maschinelles Lernen, Graphx für die Graph-Verarbeitung und strukturiertes Streaming für die Stream-Verarbeitung.
Auf der Projektwebseite finden Sie die neueste Dokumentation für Spark, einschließlich eines Programmierhandbuchs. Diese ReadMe -Datei enthält nur grundlegende Setup -Anweisungen.
Spark wird mit Apache Maven erstellt. Um Spark und seine Beispielprogramme zu erstellen, rennen Sie:
./build/mvn -DskipTests clean package(Sie müssen dies nicht tun, wenn Sie ein vorgefertigtes Paket heruntergeladen haben.)
Eine detailliertere Dokumentation finden Sie auf der Projektstelle unter "Building Spark".
Für allgemeine Entwicklungs -Tipps, einschließlich Informationen zur Entwicklung von Spark mit einer IDE, finden Sie in "Nützlichen Entwickler -Tools".
Der einfachste Weg, Spark zu verwenden, ist die Scala -Shell:
./bin/spark-shellVersuchen Sie den folgenden Befehl, der 1.000.000.000 zurückgeben sollte:
scala > spark.range( 1000 * 1000 * 1000 ).count()Wenn Sie Python bevorzugen, können Sie alternativ die Python -Shell verwenden:
./bin/pysparkUnd führen Sie den folgenden Befehl aus, der auch 1.000.000.000 zurückgeben sollte:
>> > spark . range ( 1000 * 1000 * 1000 ). count () Spark wird auch mit mehreren Beispielprogrammen im examples ausgestattet. Um einen von ihnen auszuführen, verwenden Sie ./bin/run-example <class> [params] . Zum Beispiel:
./bin/run-example SparkPiWird das PI -Beispiel vor Ort ausführen.
Sie können die Master -Umgebungsvariable festlegen, wenn Sie Beispiele ausführen, um Beispiele an einen Cluster zu senden. Dies kann Spark: // URL, "Garn" sein, um mit Garn zu laufen, und "lokal", um lokal mit einem Faden oder "lokal [n]" zu laufen, um lokal mit N -Fäden zu laufen. Sie können auch einen abgekürzten Klassennamen verwenden, wenn sich die Klasse im examples befindet. Zum Beispiel:
MASTER=spark://host:7077 ./bin/run-example SparkPiViele der Beispielprogramme drucken die Verwendung von Hilfe, wenn keine Parameter angegeben werden.
Das Testen erfordert zuerst das Bauen von Funken. Sobald Spark gebaut ist, können Tests mit:
./dev/run-testsBitte beachten Sie die Anleitung zum Ausführen von Tests für ein Modul oder einzelne Tests.
Es gibt auch einen Kubernetes-Integrationstest, siehe Ressourcen-Manager/Kubernetes/Integrationstests/Readme.md
Spark verwendet die Hadoop Core-Bibliothek, um mit HDFs und anderen von Hadoop unterstützten Speichersystemen zu sprechen. Da sich die Protokolle in verschiedenen Versionen von Hadoop verändert haben, müssen Sie Spark gegen dieselbe Version erstellen, die Ihr Cluster ausführt.
In der Build -Dokumentation finden Sie in "Angabe der Hadoop -Version und Aktivierung von Garn" detaillierte Anleitungen zum Aufbau für eine bestimmte Verteilung von Hadoop, einschließlich des Aufbaus für bestimmte Bienenstock- und Bienenstockverteilerverteilungen.
In der Online -Dokumentation finden Sie im Konfigurationshandbuch eine Übersicht über die Konfiguration von Spark.
Bitte überprüfen Sie den Beitrag zum Spark Guide, um Informationen zum Beitrag zum Projekt zu erhalten.