Скачать spark - Загрузка исходного кода spark

spark

Другой исходный код

1.0.0

Скачать

Apache Spark

Spark-это единый аналитический двигатель для крупномасштабной обработки данных. Он обеспечивает высокоуровневые API в Scala, Java, Python и R, а также оптимизированный двигатель, который поддерживает общие графики вычислений для анализа данных. Он также поддерживает богатый набор инструментов более высокого уровня, включая Spark SQL для SQL и DataFrames, Pandas API на Spark для рабочих нагрузок Pandas, Mllib для машинного обучения, Graphx для обработки графика и структурированной потоковой передачи для обработки потока.

Официальная версия: https://spark.apache.org/
Версия разработки: https://apache.github.io/spark/

Онлайн -документация

Вы можете найти последнюю документацию Spark, включая руководство по программированию, на веб -странице проекта. Этот файл readme содержит только базовые инструкции по настройке.

Строительство искры

Искра построена с использованием Apache Maven. Чтобы создать Spark и его примеры программ, запустите:

./build/mvn -DskipTests clean package

(Вам не нужно делать это, если вы скачали предварительно построенный пакет.)

Более подробная документация доступна на сайте проекта, по адресу "Building Spark".

Для общих советов по разработке, включая информацию о разработке Spark с использованием IDE, см. «Полезные инструменты разработчика».

Интерактивная Scala Shell

Самый простой способ начать использовать Spark - это Scala Shell:

./bin/spark-shell

Попробуйте следующую команду, которая должна вернуть 1 000 000 000:

scala > spark.range( 1000 * 1000 * 1000 ).count()

Интерактивная оболочка Python

В качестве альтернативы, если вы предпочитаете Python, вы можете использовать оболочку Python:

./bin/pyspark

И запустите следующую команду, которая также должна вернуть 1 000 000 000:

 >> > spark . range ( 1000 * 1000 * 1000 ). count ()

Примеры программ

Spark также поставляется с несколькими образцами программ в каталоге examples . Чтобы запустить один из них, используйте ./bin/run-example <class> [params] . Например:

./bin/run-example SparkPi

Будет запустить пример PI на местном уровне.

Вы можете установить переменную главной среды при запуске примеров, чтобы отправить примеры в кластер. Это может быть Spark: // url, «пряжа» для бега на пряжу, и «локальный» для локального запуска с одной нитью или «локальным [n]» для локального запуска с помощью n потоков. Вы также можете использовать сокращенное имя класса, если класс находится в пакете examples . Например:

MASTER=spark://host:7077 ./bin/run-example SparkPi

Многие из примеров программ печатают справку об использовании, если не дано параметров.

Заводящие тесты

Тестирование сначала требует строительства искры. После того, как искра построена, тесты можно запускать с помощью:

./dev/run-tests

Пожалуйста, посмотрите руководство о том, как запустить тесты для модуля или отдельные тесты.

Существует также интеграционный тест Kubernetes, см. Ресурс-менеджеры/Kubernetes/Integration-tests/readme.md

Примечание о версиях Hadoop

Spark использует библиотеку Hadoop Core, чтобы поговорить с HDFS и другими системами хранения, поддерживаемых Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны построить искру в той же версии, в которой работает ваш кластер.

Пожалуйста, обратитесь к документации сборки на «Указании версии Hadoop и включения пряжи» для подробного руководства по строительству для конкретного распределения Hadoop, включая строительство для определенных распределений улей и ультра.