Spark-это единый аналитический двигатель для крупномасштабной обработки данных. Он обеспечивает высокоуровневые API в Scala, Java, Python и R, а также оптимизированный двигатель, который поддерживает общие графики вычислений для анализа данных. Он также поддерживает богатый набор инструментов более высокого уровня, включая Spark SQL для SQL и DataFrames, Pandas API на Spark для рабочих нагрузок Pandas, Mllib для машинного обучения, Graphx для обработки графика и структурированной потоковой передачи для обработки потока.
Вы можете найти последнюю документацию Spark, включая руководство по программированию, на веб -странице проекта. Этот файл readme содержит только базовые инструкции по настройке.
Искра построена с использованием Apache Maven. Чтобы создать Spark и его примеры программ, запустите:
./build/mvn -DskipTests clean package(Вам не нужно делать это, если вы скачали предварительно построенный пакет.)
Более подробная документация доступна на сайте проекта, по адресу "Building Spark".
Для общих советов по разработке, включая информацию о разработке Spark с использованием IDE, см. «Полезные инструменты разработчика».
Самый простой способ начать использовать Spark - это Scala Shell:
./bin/spark-shellПопробуйте следующую команду, которая должна вернуть 1 000 000 000:
scala > spark.range( 1000 * 1000 * 1000 ).count()В качестве альтернативы, если вы предпочитаете Python, вы можете использовать оболочку Python:
./bin/pysparkИ запустите следующую команду, которая также должна вернуть 1 000 000 000:
>> > spark . range ( 1000 * 1000 * 1000 ). count () Spark также поставляется с несколькими образцами программ в каталоге examples . Чтобы запустить один из них, используйте ./bin/run-example <class> [params] . Например:
./bin/run-example SparkPiБудет запустить пример PI на местном уровне.
Вы можете установить переменную главной среды при запуске примеров, чтобы отправить примеры в кластер. Это может быть Spark: // url, «пряжа» для бега на пряжу, и «локальный» для локального запуска с одной нитью или «локальным [n]» для локального запуска с помощью n потоков. Вы также можете использовать сокращенное имя класса, если класс находится в пакете examples . Например:
MASTER=spark://host:7077 ./bin/run-example SparkPiМногие из примеров программ печатают справку об использовании, если не дано параметров.
Тестирование сначала требует строительства искры. После того, как искра построена, тесты можно запускать с помощью:
./dev/run-testsПожалуйста, посмотрите руководство о том, как запустить тесты для модуля или отдельные тесты.
Существует также интеграционный тест Kubernetes, см. Ресурс-менеджеры/Kubernetes/Integration-tests/readme.md
Spark использует библиотеку Hadoop Core, чтобы поговорить с HDFS и другими системами хранения, поддерживаемых Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны построить искру в той же версии, в которой работает ваш кластер.
Пожалуйста, обратитесь к документации сборки на «Указании версии Hadoop и включения пряжи» для подробного руководства по строительству для конкретного распределения Hadoop, включая строительство для определенных распределений улей и ультра.
Пожалуйста, обратитесь к руководству по настройке в онлайн -документации для обзора, как настроить Spark.
Пожалуйста, просмотрите вклад в руководство Spark для получения информации о том, как начать вносить свой вклад в проект.