SynapSEML (précédemment connu sous le nom de MMLSpark), est une bibliothèque open source qui simplifie la création de pipelines d'apprentissage automatique (ML) massivement évolutifs. SynapSEML fournit des API simples, composables et distribuées pour une grande variété de tâches d'apprentissage automatique différentes telles que l'analyse de texte, la vision, la détection d'anomalies et bien d'autres. SynapSEML est construit sur le framework informatique distribué Apache Spark et partage la même API que la bibliothèque SparkML / MLLIB, vous permettant d'incorporer de manière transparente les modèles SynapSEML dans les flux de travail APAChe Spark existants.
Avec SynapSEML, vous pouvez créer des systèmes évolutifs et intelligents pour résoudre les défis dans des domaines tels que la détection d'anomalies, la vision par ordinateur, l'apprentissage en profondeur, l'analyse de texte et autres. SynapSEML peut former et évaluer des modèles sur des grappes d'ordinateurs à nœud unique, multi-nœuds et élastiquement redonnables. Cela vous permet d'étendre votre travail sans gaspiller des ressources. SynapSseMl est utilisable sur Python, R, Scala, Java et .NET. De plus, son API résume sur une grande variété de bases de données, de systèmes de fichiers et de magasins de données cloud pour simplifier les expériences, peu importe où se trouve les données.
SynapSEML nécessite Scala 2.12, Spark 3.4+ et Python 3.8+.
| Sujets | Links |
|---|---|
| Construire | |
| Version | |
| Docs | |
| Soutien | |
| Liant | |
| Usage |
| Vowpal Wabbit sur Spark | Les services cognitifs pour les mégadonnées | Lightgbm sur Spark | Service d'étincelles |
| Analyse de texte rapide, clairsemée et efficace | Tirez parti des services cognitifs Microsoft à des échelles sans précédent dans vos pipelines SparkML existants | Train Gradient Boosted Machines avec LightGBM | Servir n'importe quel calcul Spark en tant que service Web avec une latence de moins de millisecondes |
| Http sur Spark | Onnx sur Spark | IA responsable | Autogénération de liaison à l'étincelle |
| Une intégration entre Spark et le protocole HTTP, permettant une orchestration microservice distribuée | Inférence du modèle distribué et accéléré du matériel sur Spark | Comprendre les modèles opaques-boîte et mesurer les biais de l'ensemble de données | Générez automatiquement les liaisons Spark pour Pyspark et Sparklyr |
| Forest d'isolement sur Spark | Cyberml | KNN conditionnel |
| Détection non linéaire distribuée | Outils d'apprentissage automatique pour la cybersécurité | Modèles KNN évolutifs avec requêtes conditionnelles |
Pour QuickStarts, la documentation, les démos et les exemples, veuillez consulter notre site Web.
Sélectionnez d'abord la plate-forme correcte dans laquelle vous installez SynapSEML dans:
Dans Microsoft Fabric, les ordinateurs portables SynapSEML sont déjà installés. Pour modifier la version, veuillez placer ce qui suit dans la première cellule de votre cahier.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:<THE_SYNAPSEML_VERSION_YOU_WANT> " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}Dans Azure Synapse Notebooks, veuillez placer ce qui suit dans la première cellule de votre cahier.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:0.11.4-spark3.3 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}Pour installer au niveau du pool au lieu du niveau du ordinateur portable, ajoutez les propriétés Spark répertoriées ci-dessus à la configuration du pool.
Pour installer SynapSEML sur le cloud Databricks, créez une nouvelle bibliothèque à partir des coordonnées Maven dans votre espace de travail.
Pour les coordonnées, utilisez: com.microsoft.azure:synapseml_2.12:1.0.8 avec le résolveur: https://mmlspark.azureedge.net/maven . Assurez-vous que cette bibliothèque est attachée à vos cluster cibles.
Enfin, assurez-vous que votre cluster Spark a au moins Spark 3.2 et Scala 2.12. Si vous rencontrez des problèmes de dépendance netty, veuillez utiliser DBR 10.1.
Vous pouvez utiliser SynapSEML dans vos ordinateurs portables Scala et Pyspark. Pour commencer avec nos exemples de carnets, importez les archives de données suivantes:
https://mmlspark.blob.core.windows.net/dbcs/SynapseMLExamplesv1.0.8.dbc
Pour essayer SynapSEML sur une installation Python (ou Conda), vous pouvez installer Spark via PIP avec pip install pyspark . Vous pouvez ensuite utiliser pyspark comme dans l'exemple ci-dessus, ou à partir de Python:
import pyspark
spark = pyspark . sql . SparkSession . builder . appName ( "MyApp" )
. config ( "spark.jars.packages" , "com.microsoft.azure:synapseml_2.12:1.0.8" )
. getOrCreate ()
import synapse . ml SynapSEML peut être installé facilement sur les clusters d'étincelles existants via l'option --packages , exemples:
spark-shell --packages com.microsoft.azure:synapseml_2.12:1.0.8
pyspark --packages com.microsoft.azure:synapseml_2.12:1.0.8
spark-submit --packages com.microsoft.azure:synapseml_2.12:1.0.8 MyApp.jar Si vous construisez une application Spark à Scala, ajoutez les lignes suivantes à votre build.sbt :
libraryDependencies + = " com.microsoft.azure " % " synapseml_2.12 " % " 1.0.8 "Pour installer SynapSEML à partir d'un cahier Jupyter desservi par Apache Livy, la magie de configuration suivante peut être utilisée. Vous devrez démarrer une nouvelle session après l'exécution de cette cellule de configuration.
L'exclusion de certains packages de la bibliothèque peut être nécessaire en raison des problèmes actuels avec le Livy 0,5.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind "
}
}Le moyen le plus simple d'évaluer SynapSEML est via notre conteneur Docker prédéfini. Pour ce faire, exécutez la commande suivante:
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes mcr.microsoft.com/mmlspark/release jupyter notebookAccédez à http: // localhost: 8888 / Dans votre navigateur Web pour exécuter les exemples de carnets. Voir la documentation pour en savoir plus sur Docker Use.
Pour lire l'Eula pour l'utilisation de l'image Docker, exécutez
docker run -it -p 8888:8888 mcr.microsoft.com/mmlspark/release eula
Pour essayer SynapSEML à l'aide des emballages R AutoGeeted, consultez nos instructions. Remarque: Cette fonctionnalité est toujours en cours de développement et certains emballages personnalisés nécessaires peuvent être manquants.
SynapSseMl est récemment passé à une nouvelle infrastructure de construction. Pour les documents des développeurs détaillés, veuillez consulter le développeur Readme
Si vous êtes un SynapsMlDeveloper existant, vous devrez reconfigurer votre configuration de développement. Nous soutenons maintenant le développement indépendant de la plate-forme et mieux nous intégrer avec Intellij et SBT. Si vous rencontrez des problèmes, veuillez contacter notre e-mail d'assistance!
Microservices intelligents à grande échelle
Récupération d'image conditionnelle
MMLSpark: Unification des écosystèmes d'apprentissage automatique à des échelles massives
Apprentissage en profondeur flexible et évolutif avec SynapSEML
Création de livres audio automatiques à grande échelle
Visitez notre site Web.
Regardez nos démos d'ouverture au Spark + AI Summit 2019, le Spark + AI European Summit 2018, le Spark + AI Summit 2018 et Synapseml au Spark Summit.
Voyez comment SynapSEML est utilisé pour aider les espèces en danger.
Explorez des illustrations adversaires génératives dans notre collaboration avec le Met et le MIT.
Explorez notre collaboration avec Apache Spark sur l'analyse d'images.
Ce projet a adopté le code de conduite open source Microsoft. Pour plus d'informations, consultez le code de conduite FAQ ou contactez [email protected] avec toute question ou commentaire supplémentaire.
Voir contribution.md pour les directives de contribution.
Pour donner des commentaires et / ou signaler un problème, ouvrez un problème de github.
Vowpal wabbit
LightGBM
DMTK: boîte à outils d'apprentissage automatique distribué Microsoft
Recommandateurs
Plugin JPMML-SPARKML pour convertir les modèles SynapSMLL LightGBM en PMML
Boîte à outils cognitive Microsoft
Apache®, Apache Spark et Spark® sont soit des marques déposées ou des marques de commerce de la Fondation des logiciels Apache aux États-Unis et / ou dans d'autres pays.