SynapsEml (ранее известный как MMLSpark), представляет собой библиотеку с открытым исходным кодом, которая упрощает создание массивно масштабируемого машинного обучения (ML). SynapsEml обеспечивает простые, композиционные и распределенные API для широкого спектра различных задач машинного обучения, таких как текстовая аналитика, зрение, обнаружение аномалий и многие другие. SynapsEml построен на распределенной вычислительной структуре Apache Spark и разделяет тот же API, что и библиотека Sparkml/Mllib, позволяя вам плавно встраивать синапс -эмпийные модели в существующие рабочие потоки Apache Spark.
С SynapsEml вы можете создавать масштабируемые и интеллектуальные системы для решения проблем в таких областях, как обнаружение аномалии, компьютерное зрение, глубокое обучение, аналитика текста и другие. SynapsEml может обучать и оценивать модели на однокно-мульти-узле и эластически решаемые кластеры компьютеров. Это позволяет вам масштабировать вашу работу без траты ресурсов. Synapseml используется через Python, R, Scala, Java и .net. Кроме того, его API тезисы в отношении широкого спектра баз данных, файловых систем и облачных хранилищ данных для упрощения экспериментов независимо от того, где находятся данные.
SynapsEml требует Scala 2.12, Spark 3.4+ и Python 3.8+.
| Темы | Ссылки |
|---|---|
| Строить | |
| Версия | |
| Док | |
| Поддерживать | |
| Переплет | |
| Использование |
| Vowpal wabbit на Spark | Когнитивные услуги для больших данных | Lightgbm на Spark | Spark Forming |
| Быстрая, редкая и эффективная текстовая аналитика | Используйте когнитивные услуги Microsoft в беспрецедентных масштабах в ваших существующих трубопроводах SparkML | Градиент поезда усилил машины с LightGBM | Служить любым вычислениям Spark в качестве веб-службы с задержкой субмиллисекунды |
| Http на Spark | Onnx на Spark | Ответственный ИИ | Аутогенерация связывания искры |
| Интеграция между Spark и протоколом HTTP, обеспечивающая распределенную оркестровку микросервиса | Распределенный и аппаратный ускоренный вывод модели на Spark | Понять непрозрачные модели и измерения наборов данных | Автоматически генерировать привязки Spark для Pyspark и Sparklyr |
| Изоляционный лес на искру | Кибермл | Условное KNN |
| Распределенное нелинейное обнаружение выбросов | Инструменты машинного обучения для кибербезопасности | Масштабируемые модели KNN с условными запросами |
Для QuickStarts, документации, демонстраций и примеров, пожалуйста, смотрите наш веб -сайт.
Сначала выберите правильную платформу, которую вы устанавливаете в SynapsEml:
В Microsoft Fabric Notebooks SynapsEml уже установлен. Чтобы изменить версию, пожалуйста, поместите следующее в первой ячейке вашего ноутбука.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:<THE_SYNAPSEML_VERSION_YOU_WANT> " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}В ноутбуках Azure Synapse, пожалуйста, поместите следующее в первую ячейку вашего ноутбука.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:0.11.4-spark3.3 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}Чтобы установить на уровне пула вместо уровня ноутбука, добавьте свойства Spark, перечисленные выше в конфигурацию пула.
Чтобы установить SynapsEml в облаке DataBricks, создайте новую библиотеку из координат Maven в вашем рабочем пространстве.
Для координат используйте: com.microsoft.azure:synapseml_2.12:1.0.8 с Resolver: https://mmlspark.azureedge.net/maven . Убедитесь, что эта библиотека прикреплена к вашему целевому кластеру (ов).
Наконец, убедитесь, что ваш кластер Spark имеет как минимум Spark 3.2 и Scala 2.12. Если вы столкнетесь с проблемами зависимости от нетти, пожалуйста, используйте DBR 10.1.
Вы можете использовать SynapsEml как в ноутбуках Scala и Pyspark. Для начала с нашим примером ноутбуков импортируйте следующий архив DataBricks:
https://mmlspark.blob.core.windows.net/dbcs/SynapseMLExamplesv1.0.8.dbc
Чтобы попробовать SynapsEml на установке Python (или Conda), вы можете установить Spark через PIP с pip install pyspark . Затем вы можете использовать pyspark как в приведенном выше примере, или из Python:
import pyspark
spark = pyspark . sql . SparkSession . builder . appName ( "MyApp" )
. config ( "spark.jars.packages" , "com.microsoft.azure:synapseml_2.12:1.0.8" )
. getOrCreate ()
import synapse . ml SynapsEml может быть удобно установлен на существующих кластерах Spark с помощью опции --packages , примеры:
spark-shell --packages com.microsoft.azure:synapseml_2.12:1.0.8
pyspark --packages com.microsoft.azure:synapseml_2.12:1.0.8
spark-submit --packages com.microsoft.azure:synapseml_2.12:1.0.8 MyApp.jar Если вы строите приложение Spark в Scala, добавьте следующие строки в свой build.sbt :
libraryDependencies + = " com.microsoft.azure " % " synapseml_2.12 " % " 1.0.8 "Чтобы установить SynapsEml из записной книжки Jupyter, обслуживаемой Apache Livy, можно использовать следующую Magic Magic. Вам нужно будет запустить новый сеанс после выполнения этой ячейки Configure.
За исключением определенных пакетов из библиотеки может потребоваться из -за текущих проблем с Livy 0,5.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind "
}
}Самый простой способ оценить SynapsEml-через наш предварительно построенный контейнер Docker. Для этого запустите следующую команду:
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes mcr.microsoft.com/mmlspark/release jupyter notebookПерейдите к http: // localhost: 8888/в вашем веб -браузере, чтобы запустить образцы ноутбуков. Смотрите документацию для получения дополнительной информации об использовании Docker.
Чтобы прочитать Eula для использования изображения Docker, запустите
docker run -it -p 8888:8888 mcr.microsoft.com/mmlspark/release eula
Чтобы попробовать SynapsEml, используя R -обертки R, см. В наши инструкции. Примечание. Эта функция все еще находится в стадии разработки, и некоторые необходимые пользовательские обертки могут отсутствовать.
SynapsEml недавно перешел на новую инфраструктуру сборки. Для получения подробных документов разработчика см. Разработчик Readme
Если вы существующий SynapsEmldeveloper, вам нужно будет реконфигурировать настройку разработки. Теперь мы поддерживаем независимую разработку платформы и лучше интегрируемся с IntelliJ и SBT. Если вы столкнетесь с проблемами, обратитесь к нашей электронной почте поддержки!
Крупномасштабные интеллектуальные микросервисы
Условное поиск изображения
MMLSPARK: объединение экосистем машинного обучения в масштабных масштабах
Гибкое и масштабируемое глубокое обучение с синапсемул
Крупномасштабное автоматическое создание аудиокниги
Посетите наш сайт.
Посмотрите наши основные демонстрации на Spark+AI Summit 2019, European Summit 2018 Spark+AI, Spark+AI Summit 2018 и Synapseml на Spark Summit.
Посмотрите, как SynapsEml используется, чтобы помочь исчезающим видам.
Исследуйте генеративные состязательные произведения искусства в нашем сотрудничестве с Met и MIT.
Исследуйте наше сотрудничество с Apache Spark по анализу изображений.
Этот проект принял код поведения с открытым исходным кодом Microsoft. Для получения дополнительной информации см. Кодекс поведения FAQ или свяжитесь с [email protected] с любыми дополнительными вопросами или комментариями.
См. Appling.md для руководящих принципов вклада.
Чтобы дать обратную связь и/или сообщить о проблеме, откройте проблему GitHub.
Vowpal wabbit
Lightgbm
DMTK: Microsoft Distributed Machine Learning Toolkit
Рекомендации
Плагин JPMML-Sparkml для преобразования SynapsEml Lightgbm моделей в PMML
Microsoft Cognitive Toolkit
Apache®, Apache Spark и Spark® являются либо зарегистрированными товарными знаками, либо товарными знаками Фонда программного обеспечения Apache в Соединенных Штатах и/или других странах.