Synapseml (이전에 MMLSPARK로 알려진)은 대규모 확장 가능한 머신 러닝 (ML) 파이프 라인의 생성을 단순화하는 오픈 소스 라이브러리입니다. SynapSeml은 텍스트 분석, 비전, 이상 탐지 및 기타 여러 가지와 같은 다양한 기계 학습 작업에 대해 간단하고 합성 가능하며 분산 API를 제공합니다. SynapSeml은 Apache Spark Distributed Computing Framework를 기반으로하며 SparkML/Mllib 라이브러리와 동일한 API를 공유하여 SynapSeml 모델을 기존 APACH SPARK 워크 플로우에 원활하게 포함시킬 수 있습니다.
SynapSeml을 사용하면 확장 가능하고 지능적인 시스템을 구축하여 이상 탐지, 컴퓨터 비전, 딥 러닝, 텍스트 분석 및 기타와 같은 도메인의 도전을 해결할 수 있습니다. SynapSeml은 단일 노드, 멀티 노드 및 탄력적으로 재생 가능한 컴퓨터 클러스터에서 모델을 교육하고 평가할 수 있습니다. 이를 통해 자원을 낭비하지 않고 작업을 확장 할 수 있습니다. SynapSeml은 Python, R, Scala, Java 및 .NET에서 사용할 수 있습니다. 또한 API는 데이터가 어디에 있든 실험을 단순화하기 위해 다양한 데이터베이스, 파일 시스템 및 클라우드 데이터 저장소를 초록합니다.
SynapSeml에는 Scala 2.12, Spark 3.4+ 및 Python 3.8+가 필요합니다.
| 주제 | 모래밭 |
|---|---|
| 짓다 | |
| 버전 | |
| 문서 | |
| 지원하다 | |
| 접합재 | |
| 용법 |
| Spark에 Vowpal Wabbit | 빅 데이터에 대한인지 서비스 | 스파크에 LightgBM | 스파크 서빙 |
| 빠르고 희박하며 효과적인 텍스트 분석 | 기존 SparkML 파이프 라인에서 전례없는 규모로 Microsoft Cognitive Services를 활용하십시오. | LightgBM으로 기차 향상 기계 | 미세 초 지연 대기 시간이있는 웹 서비스로 스파크 계산을 제공합니다. |
| 스파크에 HTTP | 스파크에 onx | 책임있는 AI | 스파크 결합자가 생성 |
| 스파크와 HTTP 프로토콜 간의 통합, 분산 마이크로 서비스 오케스트레이션 가능 | 스파크에 대한 분산 및 하드웨어 가속 모델 추론 | 불투명 박스 모델을 이해하고 데이터 세트 바이어스를 측정하십시오 | PySpark 및 Sparklyr의 스파크 바인딩을 자동으로 생성합니다 |
| 스파크의 격리 숲 | 사이버 ML | 조건부 KNN |
| 분산 된 비선형 이상치 탐지 | 사이버 보안을위한 기계 학습 도구 | 조건부 쿼리가있는 확장 가능한 KNN 모델 |
QuickStarts, Documentation, Demos 및 예제는 당사 웹 사이트를 참조하십시오.
먼저 SynapSeml을 설치하는 올바른 플랫폼을 선택하십시오.
Microsoft Fabric Notebooks SynapSeml은 이미 설치되어 있습니다. 버전을 변경하려면 노트북의 첫 번째 셀에 다음을 배치하십시오.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:<THE_SYNAPSEML_VERSION_YOU_WANT> " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}Azure Synapse Notebooks에서는 노트북의 첫 번째 셀에 다음을 배치하십시오.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:0.11.4-spark3.3 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}노트북 레벨 대신 풀 레벨에 설치하려면 위에 나열된 스파크 속성을 풀 구성에 추가하십시오.
Databricks Cloud에 SINAPSEML을 설치하려면 작업 영역에서 Maven 좌표에서 새 라이브러리를 만듭니다.
좌표를 사용하는 경우 : com.microsoft.azure:synapseml_2.12:1.0.8 Resolver가있는 https://mmlspark.azureedge.net/maven . 이 라이브러리가 대상 클러스터에 첨부되어 있는지 확인하십시오.
마지막으로, 스파크 클러스터에 스파크 3.2와 Scala 2.12 이상이 있는지 확인하십시오. Netty 의존성 문제가 발생하면 DBR 10.1을 사용하십시오.
Scala와 Pyspark 노트북 모두에서 Synapseml을 사용할 수 있습니다. 예제를 시작하려면 노트북을 시작하려면 다음 Databricks Archive를 가져옵니다.
https://mmlspark.blob.core.windows.net/dbcs/SynapseMLExamplesv1.0.8.dbc
Python (또는 Conda) 설치에서 SynapSeml을 시험해 보려면 pip install pyspark 를 통해 PIP를 통해 Spark를 설치할 수 있습니다. 그런 다음 위의 예에서와 같이 또는 Python에서 pyspark 사용할 수 있습니다.
import pyspark
spark = pyspark . sql . SparkSession . builder . appName ( "MyApp" )
. config ( "spark.jars.packages" , "com.microsoft.azure:synapseml_2.12:1.0.8" )
. getOrCreate ()
import synapse . ml synapseml은 --packages 옵션을 통해 기존 스파크 클러스터에 편리하게 설치할 수 있습니다.
spark-shell --packages com.microsoft.azure:synapseml_2.12:1.0.8
pyspark --packages com.microsoft.azure:synapseml_2.12:1.0.8
spark-submit --packages com.microsoft.azure:synapseml_2.12:1.0.8 MyApp.jar Scala로 Spark 응용 프로그램을 구축하는 경우 build.sbt 에 다음 줄을 추가하십시오.
libraryDependencies + = " com.microsoft.azure " % " synapseml_2.12 " % " 1.0.8 "Apache Livy가 제공하는 Jupyter 노트북 내에서 SynapSeml을 설치하려면 다음 구성을 사용할 수 있습니다. 이 구성 셀이 실행 된 후 새 세션을 시작해야합니다.
Livy 0.5의 현재 문제로 인해 라이브러리에서 특정 패키지를 제외하고 필요할 수 있습니다.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind "
}
}SynapSeml을 평가하는 가장 쉬운 방법은 사전 구축 된 Docker 컨테이너를 통한 것입니다. 그렇게하려면 다음 명령을 실행하십시오.
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes mcr.microsoft.com/mmlspark/release jupyter notebook웹 브라우저에서 http : // localhost : 8888/로 이동하여 샘플 노트북을 실행하십시오. Docker 사용에 대한 자세한 내용은 설명서를 참조하십시오.
Docker 이미지를 사용하기위한 EULA를 읽으려면
docker run -it -p 8888:8888 mcr.microsoft.com/mmlspark/release eula실행하십시오.
R자가 생성 포장지를 사용하여 SynapSeml을 시도하려면 지침을 참조하십시오. 참고 :이 기능은 여전히 개발 중이며 필요한 사용자 정의 포장지가 누락 될 수 있습니다.
Synapseml은 최근 새로운 빌드 인프라로 전환했습니다. 자세한 개발자 문서는 개발자 readme를 참조하십시오
기존 SynapSemlDeveloper 인 경우 개발 설정을 재구성해야합니다. 우리는 이제 플랫폼 독립 개발을 지원하고 Intellij 및 SBT와 더 잘 통합됩니다. 문제가 발생하면 지원 이메일에 연락하십시오!
대규모 지능형 마이크로 서비스
조건부 이미지 검색
MMLSPARK : 머신 러닝 생태계 통일 거대한 규모
Synapseml을 사용한 유연하고 확장 가능한 딥 러닝
대규모 자동 오디오 북 생성
당사 웹 사이트를 방문하십시오.
Spark+AI Summit 2019, The Spark+AI European Summit 2018, Spark+AI Summit 2018 및 Spark Summit의 Synapseml에서 기조 노트 데모를 시청하십시오.
SynapSeml이 멸종 위기 종을 돕기 위해 어떻게 사용되는지보십시오.
Met and MIT와의 협력에서 생성 적대 작품을 탐색하십시오.
이미지 분석에서 Apache Spark와의 협력을 탐색하십시오.
이 프로젝트는 Microsoft 오픈 소스 행동 강령을 채택했습니다. 자세한 내용은 추가 질문이나 의견이 있으면 행동 강령 FAQ 또는 [email protected]에 문의하십시오.
기여 가이드 라인은 Contributing.md를 참조하십시오.
피드백을 제공하거나 문제를보고하려면 GitHub 문제를 열십시오.
Vowpal Wabbit
LightgBM
DMTK : Microsoft 분산 기계 학습 툴킷
추천자
Synapseml LightGBM 모델을 PMML로 변환하기위한 JPMML-SPARKML 플러그인
Microsoft Cognitive Toolkit
Apache®, Apache Spark 및 Spark®는 미국 및/또는 기타 국가의 Apache Software Foundation의 등록 상표 또는 상표입니다.