Téléchargement de spark - Téléchargement du code source spark

spark

Autre code source

1.0.0

Télécharger

Apache Spark

Spark est un moteur d'analyse unifié pour le traitement des données à grande échelle. Il fournit des API de haut niveau dans Scala, Java, Python et R, et un moteur optimisé qui prend en charge les graphiques de calcul généraux pour l'analyse des données. Il prend également en charge un riche ensemble d'outils de niveau supérieur, notamment Spark SQL pour SQL et DataFrames, Pandas API on Spark for Pandas Workloads, MLLIB for Machine Learning, GraphX pour le traitement des graphiques et le streaming structuré pour le traitement des flux.

Version officielle: https://spark.apache.org/
Version de développement: https://apache.github.io/spark/

Documentation en ligne

Vous pouvez trouver la dernière documentation Spark, y compris un guide de programmation, sur la page Web du projet. Ce fichier ReadMe ne contient que des instructions de configuration de base.

Étincelle du bâtiment

Spark est construit à l'aide d'Apache Maven. Pour construire Spark et ses exemples de programmes, exécutez:

./build/mvn -DskipTests clean package

(Vous n'avez pas besoin de le faire si vous avez téléchargé un package pré-construit.)

Une documentation plus détaillée est disponible sur le site du projet, dans "Building Spark".

Pour les conseils de développement général, y compris les informations sur le développement de Spark à l'aide d'un IDE, voir "Utilités OUTILS DÉVELOPER".

Coquille de scala interactive

La façon la plus simple de commencer à utiliser Spark est à travers la coque Scala:

./bin/spark-shell

Essayez la commande suivante, qui devrait renvoyer 1 000 000 000:

scala > spark.range( 1000 * 1000 * 1000 ).count()

Shell Python interactif

Alternativement, si vous préférez Python, vous pouvez utiliser la coque Python:

./bin/pyspark

Et exécuter la commande suivante, qui devrait également renvoyer 1 000 000 000:

 >> > spark . range ( 1000 * 1000 * 1000 ). count ()

Exemples de programmes

Spark est également livré avec plusieurs exemples de programmes dans le répertoire examples . Pour exécuter l'un d'eux, utilisez ./bin/run-example <class> [params] . Par exemple:

./bin/run-example SparkPi

Exécutera l'exemple PI localement.

Vous pouvez définir la variable d'environnement maître lors de l'exécution d'exemples pour soumettre des exemples à un cluster. Cela peut être étincelant: // url, "fil" pour fonctionner sur le fil, et "local" pour exécuter localement avec un thread, ou "local [n]" pour fonctionner localement avec n threads. Vous pouvez également utiliser un nom de classe abrégé si la classe se trouve dans le package examples . Par exemple:

MASTER=spark://host:7077 ./bin/run-example SparkPi

Beaucoup d'exemples de programmes impriment une aide à l'utilisation si aucun paramètre n'est donné.

Tests en cours d'exécution

Le test nécessite d'abord la construction d'étincelles. Une fois l'étincelle construite, les tests peuvent être exécutés en utilisant:

./dev/run-tests

Veuillez consulter les conseils sur la façon d'exécuter des tests pour un module ou des tests individuels.

Il existe également un test d'intégration de Kubernetes, voir Resource-Managers / Kubernetes / Integration-Tests / Readme.md

Une note sur les versions Hadoop

Spark utilise la bibliothèque Hadoop Core pour parler à HDFS et à d'autres systèmes de stockage soutenus par Hadoop. Parce que les protocoles ont changé dans différentes versions de Hadoop, vous devez construire Spark contre la même version que votre cluster s'exécute.

Veuillez vous référer à la documentation de build sur "Spécification de la version Hadoop et Activation du fil" pour des conseils détaillés sur la construction pour une distribution particulière de Hadoop, y compris la construction pour des distributions particulières de ruche et de ruche.