Spark는 대규모 데이터 처리를위한 통합 분석 엔진입니다. 스칼라, 자바, 파이썬 및 R에서 고급 API와 데이터 분석을위한 일반적인 계산 그래프를 지원하는 최적화 된 엔진을 제공합니다. 또한 SQL 및 Dataframes 용 Spark SQL, Pandas Workload 용 Spark on Pandas API, 기계 학습 용 Mllib, 그래프 처리를위한 그래프 및 스트림 처리를위한 구조적 스트리밍을 포함한 풍부한 고급 도구 세트를 지원합니다.
프로젝트 웹 페이지에서 프로그래밍 안내서를 포함한 최신 스파크 문서를 찾을 수 있습니다. 이 readme 파일에는 기본 설정 지침 만 포함되어 있습니다.
Spark는 Apache Maven을 사용하여 제작되었습니다. Spark와 그 예제 프로그램을 구축하려면 실행하십시오.
./build/mvn -DskipTests clean package(사전 구축 된 패키지를 다운로드 한 경우이 작업을 수행 할 필요가 없습니다.)
"Building Spark"의 프로젝트 사이트에서보다 자세한 문서는 제공됩니다.
IDE를 사용하여 Spark 개발에 대한 정보를 포함하여 일반적인 개발 팁은 "유용한 개발자 도구"를 참조하십시오.
스파크 사용을 시작하는 가장 쉬운 방법은 스칼라 쉘을 통한 것입니다.
./bin/spark-shell1,000,000,000을 반환 해야하는 다음 명령을 시도해보십시오.
scala > spark.range( 1000 * 1000 * 1000 ).count()또는 Python을 선호하는 경우 Python Shell을 사용할 수 있습니다.
./bin/pyspark다음 명령을 실행하여 1,000,000,000을 반환해야합니다.
>> > spark . range ( 1000 * 1000 * 1000 ). count () Spark에는 examples 디렉토리에 여러 샘플 프로그램이 제공됩니다. 그 중 하나를 실행하려면 ./bin/run-example <class> [params] 사용하십시오. 예를 들어:
./bin/run-example SparkPiPI 예제를 로컬로 실행합니다.
예제를 실행할 때 마스터 환경 변수를 설정하여 예제를 클러스터에 제출할 수 있습니다. 이것은 Spark : // url, yarn에서 실행할 "원사", 하나의 스레드로 로컬로 작동하는 "로컬"또는 "로컬 [n]"가 N 스레드로 로컬로 작동 할 수 있습니다. 클래스가 examples 패키지에있는 경우 약식 클래스 이름을 사용할 수도 있습니다. 예를 들어:
MASTER=spark://host:7077 ./bin/run-example SparkPi많은 예제 프로그램이 매개 변수가없는 경우 사용법을 인쇄합니다.
먼저 테스트하려면 건물 스파크가 필요합니다. Spark가 구축되면 테스트는 다음을 사용하여 실행할 수 있습니다.
./dev/run-tests모듈 테스트 또는 개별 테스트를 실행하는 방법에 대한 지침을 참조하십시오.
Kubernetes 통합 테스트도 있습니다. 리소스 관리자/Kubernetes/Integration-Tests/Readme.md를 참조하십시오
Spark는 Hadoop Core 라이브러리를 사용하여 HDF 및 기타 Hadoop 지원 스토리지 시스템과 대화합니다. 프로토콜이 다른 버전의 Hadoop에서 변경되었으므로 클러스터가 실행되는 것과 동일한 버전에 대해 스파크를 구축해야합니다.
특정 Hive 및 Hive Thriftserver 배포를위한 건축을 포함하여 Hadoop의 특정 배포를위한 건축에 대한 자세한 지침을 위해 "Hadoop 버전 지정 및 원사 활성화"의 빌드 문서를 참조하십시오.
Spark 구성 방법에 대한 개요는 온라인 문서의 구성 안내서를 참조하십시오.
프로젝트에 기여하는 방법에 대한 정보는 Spark Guide에 대한 기여를 검토하십시오.