Spark est un moteur d'analyse unifié pour le traitement des données à grande échelle. Il fournit des API de haut niveau dans Scala, Java, Python et R, et un moteur optimisé qui prend en charge les graphiques de calcul généraux pour l'analyse des données. Il prend également en charge un riche ensemble d'outils de niveau supérieur, notamment Spark SQL pour SQL et DataFrames, Pandas API on Spark for Pandas Workloads, MLLIB for Machine Learning, GraphX pour le traitement des graphiques et le streaming structuré pour le traitement des flux.
Vous pouvez trouver la dernière documentation Spark, y compris un guide de programmation, sur la page Web du projet. Ce fichier ReadMe ne contient que des instructions de configuration de base.
Spark est construit à l'aide d'Apache Maven. Pour construire Spark et ses exemples de programmes, exécutez:
./build/mvn -DskipTests clean package(Vous n'avez pas besoin de le faire si vous avez téléchargé un package pré-construit.)
Une documentation plus détaillée est disponible sur le site du projet, dans "Building Spark".
Pour les conseils de développement général, y compris les informations sur le développement de Spark à l'aide d'un IDE, voir "Utilités OUTILS DÉVELOPER".
La façon la plus simple de commencer à utiliser Spark est à travers la coque Scala:
./bin/spark-shellEssayez la commande suivante, qui devrait renvoyer 1 000 000 000:
scala > spark.range( 1000 * 1000 * 1000 ).count()Alternativement, si vous préférez Python, vous pouvez utiliser la coque Python:
./bin/pysparkEt exécuter la commande suivante, qui devrait également renvoyer 1 000 000 000:
>> > spark . range ( 1000 * 1000 * 1000 ). count () Spark est également livré avec plusieurs exemples de programmes dans le répertoire examples . Pour exécuter l'un d'eux, utilisez ./bin/run-example <class> [params] . Par exemple:
./bin/run-example SparkPiExécutera l'exemple PI localement.
Vous pouvez définir la variable d'environnement maître lors de l'exécution d'exemples pour soumettre des exemples à un cluster. Cela peut être étincelant: // url, "fil" pour fonctionner sur le fil, et "local" pour exécuter localement avec un thread, ou "local [n]" pour fonctionner localement avec n threads. Vous pouvez également utiliser un nom de classe abrégé si la classe se trouve dans le package examples . Par exemple:
MASTER=spark://host:7077 ./bin/run-example SparkPiBeaucoup d'exemples de programmes impriment une aide à l'utilisation si aucun paramètre n'est donné.
Le test nécessite d'abord la construction d'étincelles. Une fois l'étincelle construite, les tests peuvent être exécutés en utilisant:
./dev/run-testsVeuillez consulter les conseils sur la façon d'exécuter des tests pour un module ou des tests individuels.
Il existe également un test d'intégration de Kubernetes, voir Resource-Managers / Kubernetes / Integration-Tests / Readme.md
Spark utilise la bibliothèque Hadoop Core pour parler à HDFS et à d'autres systèmes de stockage soutenus par Hadoop. Parce que les protocoles ont changé dans différentes versions de Hadoop, vous devez construire Spark contre la même version que votre cluster s'exécute.
Veuillez vous référer à la documentation de build sur "Spécification de la version Hadoop et Activation du fil" pour des conseils détaillés sur la construction pour une distribution particulière de Hadoop, y compris la construction pour des distributions particulières de ruche et de ruche.
Veuillez vous référer au guide de configuration dans la documentation en ligne pour un aperçu de la façon de configurer Spark.
Veuillez consulter la contribution à Spark Guide pour obtenir des informations sur la façon de commencer à contribuer au projet.