Spark adalah mesin analitik terpadu untuk pemrosesan data skala besar. Ini menyediakan API tingkat tinggi di Scala, Java, Python, dan R, dan mesin yang dioptimalkan yang mendukung grafik komputasi umum untuk analisis data. Ini juga mendukung serangkaian alat tingkat tinggi yang kaya termasuk Spark SQL untuk SQL dan DataFrames, PANDAS API pada Spark untuk beban kerja panda, MLLIB untuk pembelajaran mesin, graphx untuk pemrosesan grafik, dan streaming terstruktur untuk pemrosesan aliran.
Anda dapat menemukan dokumentasi Spark terbaru, termasuk panduan pemrograman, di halaman web proyek. File ReadMe ini hanya berisi instruksi pengaturan dasar.
Spark dibangun menggunakan Apache Maven. Untuk membangun Spark dan contoh programnya, jalankan:
./build/mvn -DskipTests clean package(Anda tidak perlu melakukan ini jika Anda mengunduh paket pra-dibangun.)
Dokumentasi yang lebih terperinci tersedia dari situs proyek, di "Building Spark".
Untuk tips pengembangan umum, termasuk info tentang pengembangan Spark menggunakan IDE, lihat "Alat Pengembang yang Berguna".
Cara termudah untuk mulai menggunakan Spark adalah melalui shell scala:
./bin/spark-shellCoba perintah berikut, yang seharusnya mengembalikan 1.000.000.000:
scala > spark.range( 1000 * 1000 * 1000 ).count()Atau, jika Anda lebih suka python, Anda dapat menggunakan shell python:
./bin/pysparkDan jalankan perintah berikut, yang juga harus mengembalikan 1.000.000.000:
>> > spark . range ( 1000 * 1000 * 1000 ). count () Spark juga dilengkapi dengan beberapa program sampel di direktori examples . Untuk menjalankan salah satu dari mereka, gunakan ./bin/run-example <class> [params] . Misalnya:
./bin/run-example SparkPiakan menjalankan contoh PI secara lokal.
Anda dapat mengatur variabel lingkungan master saat menjalankan contoh untuk mengirimkan contoh ke cluster. Ini bisa menjadi percikan: // url, "benang" untuk dijalankan dengan benang, dan "lokal" untuk dijalankan secara lokal dengan satu utas, atau "lokal [n]" untuk dijalankan secara lokal dengan n utas. Anda juga dapat menggunakan nama kelas singkat jika kelas ada di paket examples . Misalnya:
MASTER=spark://host:7077 ./bin/run-example SparkPiBanyak contoh program Cetak Bantuan Penggunaan Jika tidak ada param yang diberikan.
Pengujian terlebih dahulu membutuhkan percikan bangunan. Setelah percikan dibuat, tes dapat dijalankan menggunakan:
./dev/run-testsSilakan lihat panduan tentang cara menjalankan tes untuk modul, atau tes individual.
Ada juga uji integrasi Kubernetes, lihat manajer sumber daya/kubernetes/integrasi/readme.md
Spark menggunakan perpustakaan inti Hadoop untuk berbicara dengan HDF dan sistem penyimpanan yang didukung Hadoop lainnya. Karena protokol telah berubah dalam versi Hadoop yang berbeda, Anda harus membangun percikan terhadap versi yang sama dengan yang dijalankan oleh cluster Anda.
Silakan merujuk ke dokumentasi Build di "Menentukan versi Hadoop dan mengaktifkan benang" untuk panduan terperinci tentang pembangunan untuk distribusi Hadoop tertentu, termasuk membangun untuk distribusi sarang dan hive hive hive tertentu.
Silakan merujuk ke panduan konfigurasi dalam dokumentasi online untuk ikhtisar tentang cara mengkonfigurasi Spark.
Harap tinjau Panduan Kontribusi ke Spark untuk informasi tentang cara memulai berkontribusi pada proyek.