Sparkは、大規模なデータ処理のための統一された分析エンジンです。 Scala、Java、Python、およびRで高レベルのAPIを提供し、データ分析のために一般的な計算グラフをサポートする最適化されたエンジンを提供します。また、SQLおよびDataFrames用のSpark SQL、Pandas WorkloadのSparkのPandas API、機械学習用のMllib、グラフ処理用のGraphx、ストリーム処理用の構造化ストリーミングなど、リッチな高レベルのツールセットもサポートしています。
プロジェクトWebページで、プログラミングガイドを含む最新のSparkドキュメントを見つけることができます。このREADMEファイルには、基本的なセットアップ手順のみが含まれています。
SparkはApache Mavenを使用して構築されています。 Sparkとその例プログラムを構築するには、実行してください。
./build/mvn -DskipTests clean package(事前に構築されたパッケージをダウンロードした場合、これを行う必要はありません。)
より詳細なドキュメントは、「Building Spark」でプロジェクトサイトから入手できます。
IDEを使用したSparkの開発に関する情報を含む一般的な開発のヒントについては、「有用な開発者ツール」を参照してください。
Sparkの使用を開始する最も簡単な方法は、Scalaシェルを使用することです。
./bin/spark-shell次のコマンドを試してください。これは1,000,000,000を返します。
scala > spark.range( 1000 * 1000 * 1000 ).count()または、Pythonを好む場合は、Pythonシェルを使用できます。
./bin/pyspark次のコマンドを実行します。これは1,000,000,000も返します。
>> > spark . range ( 1000 * 1000 * 1000 ). count ()Sparkには、 examples Directoryにいくつかのサンプルプログラムが付属しています。そのうちの1つを実行するには、 ./bin/run-example <class> [params]を使用します。例えば:
./bin/run-example SparkPiPI例をローカルに実行します。
例を実行するときにマスター環境変数を設定して、クラスターに例を送信できます。これは、糸で動作する「YARN」、「YARN」、1つのスレッドでローカルに実行する「ローカル」、またはnスレッドでローカルに実行される「ローカル」を「ローカル」することができます。クラスがexamplesパッケージにある場合は、短縮クラス名を使用することもできます。例えば:
MASTER=spark://host:7077 ./bin/run-example SparkPiサンプルプログラムの多くの印刷の使用は、パラメージが与えられていない場合に役立ちます。
最初にテストするには、スパークの構築が必要です。 Sparkが構築されると、以下を使用してテストを実行できます。
./dev/run-testsモジュールまたは個々のテストのテストを実行する方法に関するガイダンスをご覧ください。
Kubernetes統合テストもあります。リソースマネージャー/Kubernetes/Integration-Tests/readme.mdを参照してください
Sparkは、Hadoop Coreライブラリを使用して、HDFやその他のHadoopがサポートするストレージシステムと通信します。プロトコルはHadoopのさまざまなバージョンで変更されているため、クラスターが実行されるのと同じバージョンに対してSparkを構築する必要があります。
特定のハイブやハイブリリフトサーバー分布のための構築など、Hadoopの特定の配布のための建設に関する詳細なガイダンスについては、「Hadoopバージョンの指定とYarnの有効化Yarn」のビルドドキュメントを参照してください。
Sparkの構成方法の概要については、オンラインドキュメントの構成ガイドを参照してください。
プロジェクトへの貢献を開始する方法については、Sparkガイドへの貢献を確認してください。