Synapseml (zuvor bekannt als MMLSpark) ist eine Open-Source-Bibliothek, die die Erstellung von massiv skalierbaren maschinellen Lernen (ML) vereinfacht. SynapsML bietet einfache, komponierbare und verteilte APIs für eine Vielzahl verschiedener Aufgaben für maschinelles Lernen wie Textanalysen, Sehvermögen, Anomalie -Erkennung und viele andere. SynapsML basiert auf dem Apache Spark Distributed Computing Framework und teilt dieselbe API wie die SparkML/Mllib -Bibliothek, sodass Sie nahtlos Synapseml -Modelle in vorhandene Apache -Spark -Workflows einbetten können.
Mit SynapsML können Sie skalierbare und intelligente Systeme erstellen, um Herausforderungen in Domänen wie Anomalieerkennung, Computer Vision, tiefes Lernen, Textanalysen und andere zu lösen. SynapsML kann Modelle auf Einzelknoten, Multi-Knoten und elastisch-resizierbaren Computern ausbilden und bewerten. Auf diese Weise können Sie Ihre Arbeit skalieren, ohne Ressourcen zu verschwenden. Synapseml ist in Python, R, Scala, Java und .NET verwendet. Darüber hinaus werden seine API über eine Vielzahl von Datenbanken, Dateisystemen und Cloud -Datenspeichern zusammengefügt, um Experimente zu vereinfachen, unabhängig davon, wo sich Daten befinden.
SynapsML erfordert Scala 2.12, Spark 3.4+ und Python 3.8+.
| Themen | Links |
|---|---|
| Bauen | |
| Version | |
| Dokumente | |
| Unterstützung | |
| Bindemittel | |
| Verwendung |
| Vowpal Wabbit auf Funken | Die kognitiven Dienste für Big Data | Lightgbm auf Funken | Funken Serving |
| Schnelle, spärliche und effektive Textanalyse | Nutzen Sie die Microsoft Cognitive Services auf beispiellosen Skalen in Ihren vorhandenen Sparkml -Pipelines | Zuggefälle erhöhten Maschinen mit LightGBM | Servieren Sie jede Funkenberechnung als Webdienst mit Untermillisekundenlatenz |
| Http auf Spark | Onnx auf Spark | Verantwortungsbewusste AI | Funkenbindung Autogeneration |
| Eine Integration zwischen Spark und dem HTTP -Protokoll, die verteilte Microservice -Orchestrierung ermöglicht | Verteilte und hardware beschleunigte Modellinferenz auf Spark | Verstehen Sie undurchsichtige Modelle und messen Sie Datensatzverzerrungen | Generieren Sie automatisch Funkenbindungen für PYSPARK und Sparklyr |
| Isolationswald beim Funken | Cyberml | Bedingte KNN |
| Verteilte nichtlineare Ausreißererkennung | Werkzeuge für maschinelles Lernen für die Cybersicherheit | Skalierbare KNN -Modelle mit bedingten Abfragen |
QuickStarts, Dokumentation, Demos und Beispiele finden Sie auf unserer Website.
Wählen Sie zunächst die richtige Plattform aus, die Sie Synapseml installieren, in:
In Microsoft Fabrics Notebooks ist Synapseml bereits installiert. Um die Version zu ändern, platzieren Sie bitte Folgendes in der ersten Zelle Ihres Notebooks.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:<THE_SYNAPSEML_VERSION_YOU_WANT> " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}In Azure Synapse -Notizbüchern platzieren Sie bitte Folgendes in der ersten Zelle Ihres Notebooks.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:0.11.4-spark3.3 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}So installieren Sie auf der Poolebene anstelle der Notebook -Ebene die oben aufgeführten Spark -Eigenschaften zur Poolkonfiguration.
Erstellen Sie eine neue Bibliothek aus Maven -Koordinaten in Ihrem Arbeitsbereich, um Synapseml in der Databricks -Cloud zu installieren.
Für die Verwendungskoordinaten: com.microsoft.azure:synapseml_2.12:1.0.8 mit dem Resolver: https://mmlspark.azureedge.net/maven . Stellen Sie sicher, dass diese Bibliothek an Ihre Zielcluster angeschlossen ist.
Stellen Sie schließlich sicher, dass Ihr Spark -Cluster mindestens Funken 3,2 und Scala 2.12 hat. Wenn Sie auf Netty -Abhängigkeitsprobleme stoßen, verwenden Sie bitte DBR 10.1.
Sie können Synapseml sowohl in Ihren Scala- als auch in Ihren PYSPARK -Notizbüchern verwenden. Um mit unseren Beispielbüchern zu beginnen, importieren Sie das folgende Datenbankarchiv:
https://mmlspark.blob.core.windows.net/dbcs/SynapseMLExamplesv1.0.8.dbc
Um Synapseml an einer Python- (oder Conda) -Anstallation auszuprobieren, können Sie Spark über PIP mit pip install pyspark installieren. Sie können dann pyspark wie im obigen Beispiel oder von Python verwenden:
import pyspark
spark = pyspark . sql . SparkSession . builder . appName ( "MyApp" )
. config ( "spark.jars.packages" , "com.microsoft.azure:synapseml_2.12:1.0.8" )
. getOrCreate ()
import synapse . ml SynapsML kann bequem auf vorhandenen Spark -Clustern über die Option --packages , Beispiele" installiert werden:
spark-shell --packages com.microsoft.azure:synapseml_2.12:1.0.8
pyspark --packages com.microsoft.azure:synapseml_2.12:1.0.8
spark-submit --packages com.microsoft.azure:synapseml_2.12:1.0.8 MyApp.jar Wenn Sie in Scala eine Funkenanwendung erstellen, fügen Sie Ihrem build.sbt die folgenden Zeilen hinzu.
libraryDependencies + = " com.microsoft.azure " % " synapseml_2.12 " % " 1.0.8 "So installieren Sie Synapseml aus einem Jupyter -Notizbuch, das von Apache Livy bedient wird. Die folgende Konfiguration kann verwendet werden. Sie müssen eine neue Sitzung starten, nachdem diese Konfigurationszelle ausgeführt wurde.
Mit Ausnahme bestimmter Pakete aus der Bibliothek kann aufgrund aktueller Probleme mit Livy 0,5 erforderlich sein.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind "
}
}Der einfachste Weg, Synapseml zu bewerten, ist über unseren vorgefertigten Docker-Container. Führen Sie dazu den folgenden Befehl aus:
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes mcr.microsoft.com/mmlspark/release jupyter notebookNavigieren Sie zu http: // localhost: 8888/in Ihrem Webbrowser, um die Beispiel -Notizbücher auszuführen. Weitere Informationen zur Verwendung von Docker finden Sie in der Dokumentation.
Um die EULA für die Verwendung des Docker -Images zu lesen, führen Sie
docker run -it -p 8888:8888 mcr.microsoft.com/mmlspark/release eulaaus
Um Synapseml mit den autogenerierten R -Wrappern auszuprobieren, sehen Sie unsere Anweisungen. Hinweis: Diese Funktion befindet sich noch in der Entwicklung und einige notwendige benutzerdefinierte Verpackungen fehlen möglicherweise.
Synapseml ist kürzlich zu einer neuen Build -Infrastruktur gewechselt. Detaillierte Entwicklerdokumente finden Sie im Entwickler Readme
Wenn Sie ein vorhandener SynapsMldeveloper sind, müssen Sie Ihr Entwicklungsaufbau neu konfigurieren. Wir unterstützen nun die unabhängige Entwicklung von Plattform und intellij und SBT besser integrieren. Wenn Sie auf Probleme stoßen, wenden Sie sich bitte an unsere Support -E -Mail!
Große intelligente Mikrodienste
Bedingte Bildabnahme
MMLSpark: Ökosysteme für maschinelles Lernen in massiven Skalen einheitlich
Flexibler und skalierbares tiefes Lernen mit Synapseml
Große automatische Hörbucherstellung
Besuchen Sie unsere Website.
Sehen Sie sich unsere Keynote -Demos auf dem Spark+AI Summit 2019, dem Spark+AI European Summit 2018, dem Spark+AI Summit 2018 und Synapseml auf dem Spark Summit an.
Sehen Sie, wie SynapsML verwendet wird, um gefährdete Arten zu helfen.
Erforschen Sie generative kontroverse Kunstwerke in unserer Zusammenarbeit mit MET und MIT.
Erforschen Sie unsere Zusammenarbeit mit Apache Spark bei der Bildanalyse.
Dieses Projekt hat den Microsoft Open Source -Verhaltenscode übernommen. Weitere Informationen finden Sie im FAQ oder wenden Sie sich an [email protected] mit zusätzlichen Fragen oder Kommentaren.
Siehe Beitrag.md für Beitragsrichtlinien.
Um Feedback zu geben und/oder ein Problem zu melden, öffnen Sie ein GitHub -Problem.
Vowpal Wabbit
Lightgbm
DMTK: Microsoft Distributed Machine Learning Toolkit
Empfehlungen
JPMML-Sparkml-Plugin zum Konvertieren von Synapseml-LightGBM-Modellen in PMML
Microsoft Cognitive Toolkit
Apache®, Apache Spark und Spark® sind entweder eingetragene Marken oder Marken der Apache Software Foundation in den USA und/oder in anderen Ländern.