Download spark - Download Kode Sumber spark

spark

Kode sumber lainnya

1.0.0

Unduh

Apache Spark

Spark adalah mesin analitik terpadu untuk pemrosesan data skala besar. Ini menyediakan API tingkat tinggi di Scala, Java, Python, dan R, dan mesin yang dioptimalkan yang mendukung grafik komputasi umum untuk analisis data. Ini juga mendukung serangkaian alat tingkat tinggi yang kaya termasuk Spark SQL untuk SQL dan DataFrames, PANDAS API pada Spark untuk beban kerja panda, MLLIB untuk pembelajaran mesin, graphx untuk pemrosesan grafik, dan streaming terstruktur untuk pemrosesan aliran.

Versi resmi: https://spark.apache.org/
Versi Pengembangan: https://apache.github.io/spark/

Dokumentasi online

Anda dapat menemukan dokumentasi Spark terbaru, termasuk panduan pemrograman, di halaman web proyek. File ReadMe ini hanya berisi instruksi pengaturan dasar.

Building Spark

Spark dibangun menggunakan Apache Maven. Untuk membangun Spark dan contoh programnya, jalankan:

./build/mvn -DskipTests clean package

(Anda tidak perlu melakukan ini jika Anda mengunduh paket pra-dibangun.)

Dokumentasi yang lebih terperinci tersedia dari situs proyek, di "Building Spark".

Untuk tips pengembangan umum, termasuk info tentang pengembangan Spark menggunakan IDE, lihat "Alat Pengembang yang Berguna".

Shell scala interaktif

Cara termudah untuk mulai menggunakan Spark adalah melalui shell scala:

./bin/spark-shell

Coba perintah berikut, yang seharusnya mengembalikan 1.000.000.000:

scala > spark.range( 1000 * 1000 * 1000 ).count()

Shell Python interaktif

Atau, jika Anda lebih suka python, Anda dapat menggunakan shell python:

./bin/pyspark

Dan jalankan perintah berikut, yang juga harus mengembalikan 1.000.000.000:

 >> > spark . range ( 1000 * 1000 * 1000 ). count ()

Contoh program

Spark juga dilengkapi dengan beberapa program sampel di direktori examples . Untuk menjalankan salah satu dari mereka, gunakan ./bin/run-example <class> [params] . Misalnya:

./bin/run-example SparkPi

akan menjalankan contoh PI secara lokal.

Anda dapat mengatur variabel lingkungan master saat menjalankan contoh untuk mengirimkan contoh ke cluster. Ini bisa menjadi percikan: // url, "benang" untuk dijalankan dengan benang, dan "lokal" untuk dijalankan secara lokal dengan satu utas, atau "lokal [n]" untuk dijalankan secara lokal dengan n utas. Anda juga dapat menggunakan nama kelas singkat jika kelas ada di paket examples . Misalnya:

MASTER=spark://host:7077 ./bin/run-example SparkPi

Banyak contoh program Cetak Bantuan Penggunaan Jika tidak ada param yang diberikan.

Menjalankan tes

Pengujian terlebih dahulu membutuhkan percikan bangunan. Setelah percikan dibuat, tes dapat dijalankan menggunakan:

./dev/run-tests

Silakan lihat panduan tentang cara menjalankan tes untuk modul, atau tes individual.

Ada juga uji integrasi Kubernetes, lihat manajer sumber daya/kubernetes/integrasi/readme.md

Catatan tentang versi Hadoop

Spark menggunakan perpustakaan inti Hadoop untuk berbicara dengan HDF dan sistem penyimpanan yang didukung Hadoop lainnya. Karena protokol telah berubah dalam versi Hadoop yang berbeda, Anda harus membangun percikan terhadap versi yang sama dengan yang dijalankan oleh cluster Anda.

Silakan merujuk ke dokumentasi Build di "Menentukan versi Hadoop dan mengaktifkan benang" untuk panduan terperinci tentang pembangunan untuk distribusi Hadoop tertentu, termasuk membangun untuk distribusi sarang dan hive hive hive tertentu.