Synapseml (ก่อนหน้านี้รู้จักกันในชื่อ MMLSpark) เป็นห้องสมุดโอเพนซอร์ซที่ทำให้การสร้างท่อการเรียนรู้ของเครื่องจักรที่ปรับขนาดได้อย่างหนาแน่น (ML) Synapseml ให้ API ที่เรียบง่ายเป็นส่วนประกอบและแบบกระจายสำหรับงานการเรียนรู้ของเครื่องจักรที่แตกต่างกันหลากหลายเช่นการวิเคราะห์ข้อความการมองเห็นการตรวจจับความผิดปกติและอื่น ๆ อีกมากมาย Synapseml ถูกสร้างขึ้นบนกรอบการคำนวณ Apache Spark กระจายและแบ่งปัน API เดียวกับไลบรารี SparkML/MLLIB ช่วยให้คุณสามารถฝังรุ่น SynapsEml ได้อย่างราบรื่นลงในเวิร์กโฟลว์ Apache Spark ที่มีอยู่
ด้วย Synapseml คุณสามารถสร้างระบบที่ปรับขนาดได้และอัจฉริยะเพื่อแก้ปัญหาความท้าทายในโดเมนเช่นการตรวจจับความผิดปกติการมองเห็นคอมพิวเตอร์การเรียนรู้อย่างลึกซึ้งการวิเคราะห์ข้อความและอื่น ๆ Synapseml สามารถฝึกอบรมและประเมินโมเดลบนโหนดเดียวหลายโหนดและกลุ่มคอมพิวเตอร์ที่ปรับขนาดได้อย่างยืดหยุ่น สิ่งนี้ช่วยให้คุณขยายงานของคุณโดยไม่ต้องสูญเสียทรัพยากร Synapseml สามารถใช้งานได้ทั่ว Python, R, Scala, Java และ. NET นอกจากนี้ API บทคัดย่อของมันผ่านฐานข้อมูลที่หลากหลายระบบไฟล์และที่เก็บข้อมูลคลาวด์เพื่อให้การทดลองง่ายขึ้นไม่ว่าข้อมูลจะอยู่ที่ไหน
Synapseml ต้องการ Scala 2.12, Spark 3.4+ และ Python 3.8+
| หัวข้อ | ลิงค์ |
|---|---|
| สร้าง | |
| รุ่น | |
| เอกสาร | |
| สนับสนุน | |
| เครื่องผูก | |
| การใช้งาน |
| Vowpal Wabbit on Spark | บริการความรู้ความเข้าใจสำหรับข้อมูลขนาดใหญ่ | LightGBM บน Spark | การให้บริการประกาย |
| การวิเคราะห์ข้อความที่รวดเร็วเบาบางและมีประสิทธิภาพ | ใช้ประโยชน์จาก Microsoft Cognitive Services ในระดับที่ไม่เคยมีมาก่อนในท่อ SparkML ที่มีอยู่ของคุณ | รถไฟช่วยเพิ่มเครื่องจักรด้วย LightGBM | ให้บริการการคำนวณ Spark ใด ๆ เป็นบริการบนเว็บที่มีเวลาแฝงย่อยวินาทีวินาที |
| http on spark | onnx on Spark | AI รับผิดชอบ | จุดประกายการเชื่อมโยง autogeneration |
| การบูรณาการระหว่าง Spark และ HTTP Protocol ทำให้สามารถจัดทำ microservice orchestration แบบกระจายได้ | การอนุมานแบบจำลองการกระจายแบบกระจายและฮาร์ดแวร์บน Spark | ทำความเข้าใจกับโมเดล Opaque-Box และวัดอคติชุดข้อมูล | สร้างการผูก Spark สำหรับ Pyspark และ Sparklyr โดยอัตโนมัติ |
| ป่าโดดเดี่ยวบน Spark | CyberML | KNN แบบมีเงื่อนไข |
| การตรวจจับค่าผิดปกติแบบไม่เชิงเส้นกระจาย | เครื่องมือการเรียนรู้ของเครื่องเพื่อความปลอดภัยในโลกไซเบอร์ | รุ่น KNN ที่ปรับขนาดได้พร้อมแบบสอบถามแบบมีเงื่อนไข |
สำหรับ quickstarts เอกสารการสาธิตและตัวอย่างโปรดดูเว็บไซต์ของเรา
ก่อนอื่นเลือกแพลตฟอร์มที่ถูกต้องที่คุณกำลังติดตั้ง synapseml ลงใน:
In Microsoft Fabric notebooks SynapseML is already installed. To change the version please place the following in the first cell of your notebook.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:<THE_SYNAPSEML_VERSION_YOU_WANT> " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}In Azure Synapse notebooks please place the following in the first cell of your notebook.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:0.11.4-spark3.3 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}ในการติดตั้งที่ระดับพูลแทนระดับโน้ตบุ๊กให้เพิ่มคุณสมบัติ Spark ที่ระบุไว้ด้านบนไปยังการกำหนดค่าพูล
ในการติดตั้ง synapseml บนคลาวด์ Databricks ให้สร้างไลบรารีใหม่จากพิกัด Maven ในพื้นที่ทำงานของคุณ
สำหรับการใช้พิกัด: com.microsoft.azure:synapseml_2.12:1.0.8 พร้อมตัวแก้ไข: https://mmlspark.azureedge.net/maven ตรวจสอบให้แน่ใจว่าไลบรารีนี้ติดอยู่กับคลัสเตอร์เป้าหมายของคุณ
สุดท้ายตรวจสอบให้แน่ใจว่ากลุ่มประกายไฟของคุณมีอย่างน้อย Spark 3.2 และ Scala 2.12 หากคุณพบปัญหาการพึ่งพา netty โปรดใช้ DBR 10.1
คุณสามารถใช้ synapseml ได้ทั้งในสมุดบันทึก Scala และ Pyspark ของคุณ ในการเริ่มต้นด้วยสมุดบันทึกตัวอย่างของเรานำเข้า Databricks Archive ต่อไปนี้:
https://mmlspark.blob.core.windows.net/dbcs/SynapseMLExamplesv1.0.8.dbc
หากต้องการลองใช้การติดตั้ง synapseml บนการติดตั้ง Python (หรือ conda) คุณสามารถติดตั้ง Spark ผ่าน PIP พร้อม pip install pyspark จากนั้นคุณสามารถใช้ pyspark ได้ในตัวอย่างด้านบนหรือจาก Python:
import pyspark
spark = pyspark . sql . SparkSession . builder . appName ( "MyApp" )
. config ( "spark.jars.packages" , "com.microsoft.azure:synapseml_2.12:1.0.8" )
. getOrCreate ()
import synapse . ml Synapseml สามารถติดตั้งได้อย่างสะดวกบน Spark Clusters ที่มีอยู่ผ่านตัวเลือก --packages แพคเกจตัวอย่าง:
spark-shell --packages com.microsoft.azure:synapseml_2.12:1.0.8
pyspark --packages com.microsoft.azure:synapseml_2.12:1.0.8
spark-submit --packages com.microsoft.azure:synapseml_2.12:1.0.8 MyApp.jar หากคุณกำลังสร้างแอปพลิเคชั่น Spark ใน Scala ให้เพิ่มบรรทัดต่อไปนี้ใน build.sbt ของคุณ:
libraryDependencies + = " com.microsoft.azure " % " synapseml_2.12 " % " 1.0.8 "ในการติดตั้ง synapseml จากภายในสมุดบันทึก Jupyter ที่ให้บริการโดย Apache Livy สามารถใช้ Magic Configure ต่อไปนี้ได้ คุณจะต้องเริ่มเซสชันใหม่หลังจากดำเนินการเซลล์กำหนดค่านี้
การไม่รวมแพ็คเกจบางอย่างจากห้องสมุดอาจจำเป็นเนื่องจากปัญหาปัจจุบันของ Livy 0.5
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind "
}
}The easiest way to evaluate SynapseML is via our pre-built Docker container. ในการทำเช่นนั้นเรียกใช้คำสั่งต่อไปนี้:
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes mcr.microsoft.com/mmlspark/release jupyter notebookนำทางไปที่ http: // localhost: 8888/ในเว็บเบราว์เซอร์ของคุณเพื่อเรียกใช้สมุดบันทึกตัวอย่าง ดูเอกสารเพิ่มเติมเกี่ยวกับการใช้ Docker
หากต้องการอ่าน EULA สำหรับการใช้ Image Docker ให้เรียกใช้
docker run -it -p 8888:8888 mcr.microsoft.com/mmlspark/release eula
หากต้องการลองใช้ synapseml โดยใช้ wrappers r autogenerated ดูคำแนะนำของเรา หมายเหตุ: คุณลักษณะนี้ยังอยู่ระหว่างการพัฒนาและอาจมีการห่อหุ้มแบบกำหนดเองที่จำเป็นบางอย่าง
Synapseml เพิ่งเปลี่ยนไปใช้โครงสร้างพื้นฐานการสร้างใหม่ สำหรับเอกสารผู้พัฒนารายละเอียดโปรดดูผู้พัฒนา ReadMe
หากคุณเป็นนักพัฒนา SynapSemladeveloper ที่มีอยู่คุณจะต้องกำหนดค่าการตั้งค่าการพัฒนาของคุณใหม่ ตอนนี้เราสนับสนุนแพลตฟอร์มการพัฒนาอิสระและรวมเข้ากับ Intellij และ SBT ได้ดีขึ้น หากคุณพบปัญหาโปรดติดต่ออีเมลสนับสนุนของเรา!
Microservices อัจฉริยะขนาดใหญ่
การดึงภาพแบบมีเงื่อนไข
MMLSpark: การรวมระบบนิเวศการเรียนรู้ของเครื่องจักรในระดับขนาดใหญ่
การเรียนรู้ลึกที่ยืดหยุ่นและปรับขนาดได้ด้วย synapseml
การสร้างหนังสือเสียงอัตโนมัติขนาดใหญ่
เยี่ยมชมเว็บไซต์ของเรา
ดูการสาธิตคำปราศรัยของเราที่ Spark+AI Summit 2019, Spark+AI European Summit 2018, Spark+AI Summit 2018 และ Synapseml ที่ Spark Summit
ดูว่า synapseml ใช้เพื่อช่วยสัตว์ใกล้สูญพันธุ์อย่างไร
สำรวจงานศิลปะที่เป็นปฏิปักษ์ต่อความร่วมมือของเรากับ Met and MIT
สำรวจความร่วมมือของเรากับ Apache Spark ในการวิเคราะห์ภาพ
โครงการนี้ได้นำรหัสการดำเนินงานของ Microsoft โอเพ่นซอร์สมาใช้ สำหรับข้อมูลเพิ่มเติมโปรดดูจรรยาบรรณคำถามที่พบบ่อยหรือติดต่อ [email protected] พร้อมคำถามหรือความคิดเห็นเพิ่มเติมใด ๆ
ดูการสนับสนุน MD สำหรับแนวทางการบริจาค
เพื่อให้ข้อเสนอแนะและ/หรือรายงานปัญหาให้เปิดปัญหา GitHub
Vowpal Wabbit
LightGBM
DMTK: Microsoft Distributed Machine Learning Toolkit
ผู้แนะนำ
ปลั๊กอิน jpmml-sparkml สำหรับการแปลงรุ่น synapseml lightgbm เป็น pmml
Microsoft Cognitive Toolkit
Apache®, Apache Spark และSpark®เป็นเครื่องหมายการค้าจดทะเบียนหรือเครื่องหมายการค้าของ Apache Software Foundation ในสหรัฐอเมริกาและ/หรือประเทศอื่น ๆ