Synapseml (sebelumnya dikenal sebagai MMLSPARK), adalah perpustakaan open-source yang menyederhanakan penciptaan pipa pembelajaran mesin (ML) yang dapat diskalakan secara massal. Synapseml menyediakan API yang sederhana, dapat disusun, dan terdistribusi untuk berbagai tugas pembelajaran mesin yang berbeda seperti analisis teks, penglihatan, deteksi anomali, dan banyak lainnya. Synapseml dibangun di atas kerangka komputasi Apache Spark yang didistribusikan dan berbagi API yang sama dengan perpustakaan SparkML/MLLIB, yang memungkinkan Anda untuk menyematkan model SynapsEML dengan mulus ke dalam alur kerja Apache Spark yang ada.
Dengan Synapseml, Anda dapat membangun sistem yang dapat diskalakan dan cerdas untuk memecahkan tantangan dalam domain seperti deteksi anomali, visi komputer, pembelajaran mendalam, analisis teks, dan lainnya. Synapseml dapat melatih dan mengevaluasi model pada node tunggal, multi-node, dan kelompok komputer yang dapat diputar ulang. Ini memungkinkan Anda skala pekerjaan Anda tanpa membuang -buang sumber daya. Synapseml dapat digunakan di seluruh Python, R, Scala, Java, dan .net. Selain itu, API abstraknya pada berbagai basis data, sistem file, dan penyimpanan data cloud untuk menyederhanakan eksperimen di mana pun data berada.
Synapseml membutuhkan Scala 2.12, Spark 3.4+, dan Python 3.8+.
| Topik | Tautan |
|---|---|
| Membangun | |
| Versi | |
| Dokumen | |
| Mendukung | |
| Bahan pengikat | |
| Penggunaan |
| Vowpal wabbit pada spark | Layanan Kognitif untuk Big Data | LightGBM di Spark | Percikan porsi |
| Analisis teks cepat, jarang, dan efektif | Leverage Layanan Kognitif Microsoft pada skala yang belum pernah terjadi sebelumnya dalam pipa sparkml Anda yang ada | Latih Gradient Boosted Machines dengan LightGBM | Sajikan perhitungan percikan sebagai layanan web dengan latensi sub-millisecond |
| Http di Spark | Onnx di Spark | AI yang bertanggung jawab | Autogenerasi pengikat memicu |
| Integrasi antara Spark dan Protokol HTTP, memungkinkan orkestrasi layanan mikro terdistribusi | Terdistribusi dan perangkat keras mempercepat inferensi model pada Spark | Pahami model kotak-buram dan ukur bias dataset | Secara otomatis menghasilkan binding percikan untuk pyspark dan sparklyr |
| Hutan isolasi pada percikan | Cyberml | Knn bersyarat |
| Deteksi outlier nonlinier terdistribusi | Alat Pembelajaran Mesin untuk Keamanan Cyber | Model KNN yang dapat diskalakan dengan kueri bersyarat |
Untuk QuickStarts, Dokumentasi, Demo, dan Contoh, silakan lihat situs web kami.
Pertama -tama pilih platform yang benar yang Anda instal Synapseml ke:
Di Microsoft Fabric Notebooks Synapseml sudah diinstal. Untuk mengubah versi, silakan tempatkan yang berikut di sel pertama buku catatan Anda.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:<THE_SYNAPSEML_VERSION_YOU_WANT> " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}Di Azure Synapse Notebooks, silakan letakkan yang berikut di sel pertama notebook Anda.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:0.11.4-spark3.3 " ,
" spark.jars.repositories " : " https://mmlspark.azureedge.net/maven " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind " ,
" spark.yarn.user.classpath.first " : " true " ,
" spark.sql.parquet.enableVectorizedReader " : " false "
}
}Untuk menginstal di level kumpulan alih -alih level notebook, tambahkan properti percikan yang tercantum di atas untuk konfigurasi kumpulan.
Untuk menginstal Synapseml di Cloud Databricks, buat pustaka baru dari koordinat Maven di ruang kerja Anda.
Untuk penggunaan koordinat: com.microsoft.azure:synapseml_2.12:1.0.8 dengan resolver: https://mmlspark.azureedge.net/maven . Pastikan perpustakaan ini dilampirkan ke cluster target Anda.
Akhirnya, pastikan cluster spark Anda memiliki setidaknya Spark 3.2 dan Scala 2.12. Jika Anda menghadapi masalah ketergantungan Netty, gunakan DBR 10.1.
Anda dapat menggunakan Synapseml di notebook Scala dan Pyspark Anda. Untuk memulai dengan contoh notebook kami mengimpor arsip databricks berikut:
https://mmlspark.blob.core.windows.net/dbcs/SynapseMLExamplesv1.0.8.dbc
Untuk mencoba synapseml pada instalasi python (atau conda), Anda bisa mendapatkan spark terpasang melalui pip dengan pip install pyspark . Anda kemudian dapat menggunakan pyspark seperti pada contoh di atas, atau dari Python:
import pyspark
spark = pyspark . sql . SparkSession . builder . appName ( "MyApp" )
. config ( "spark.jars.packages" , "com.microsoft.azure:synapseml_2.12:1.0.8" )
. getOrCreate ()
import synapse . ml Synapseml dapat diinstal dengan mudah pada cluster percikan yang ada melalui opsi --packages , contoh:
spark-shell --packages com.microsoft.azure:synapseml_2.12:1.0.8
pyspark --packages com.microsoft.azure:synapseml_2.12:1.0.8
spark-submit --packages com.microsoft.azure:synapseml_2.12:1.0.8 MyApp.jar Jika Anda membangun aplikasi Spark di Scala, tambahkan baris berikut ke build.sbt Anda:
libraryDependencies + = " com.microsoft.azure " % " synapseml_2.12 " % " 1.0.8 "Untuk menginstal synapseml dari dalam buku catatan Jupyter yang dilayani oleh Apache Livy, konfigurasi berikut dapat digunakan. Anda harus memulai sesi baru setelah sel konfigurasi ini dieksekusi.
Tidak termasuk paket tertentu dari perpustakaan mungkin diperlukan karena masalah saat ini dengan Livy 0,5.
%%configure -f
{
" name " : " synapseml " ,
" conf " : {
" spark.jars.packages " : " com.microsoft.azure:synapseml_2.12:1.0.8 " ,
" spark.jars.excludes " : " org.scala-lang:scala-reflect,org.apache.spark:spark-tags_2.12,org.scalactic:scalactic_2.12,org.scalatest:scalatest_2.12,com.fasterxml.jackson.core:jackson-databind "
}
}Cara termudah untuk mengevaluasi synapseml adalah melalui wadah Docker yang sudah dibangun sebelumnya. Untuk melakukannya, jalankan perintah berikut:
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes mcr.microsoft.com/mmlspark/release jupyter notebookArahkan ke http: // localhost: 8888/di browser web Anda untuk menjalankan buku catatan sampel. Lihat dokumentasi untuk lebih lanjut tentang penggunaan Docker.
Untuk membaca EULA untuk menggunakan gambar Docker, jalankan
docker run -it -p 8888:8888 mcr.microsoft.com/mmlspark/release eula
Untuk mencoba synapseml menggunakan pembungkus rutogenerated, lihat instruksi kami. Catatan: Fitur ini masih sedang dikembangkan dan beberapa pembungkus khusus yang diperlukan mungkin hilang.
Synapseml baru -baru ini beralih ke infrastruktur build baru. Untuk dokumen pengembang terperinci, silakan lihat readme pengembang
Jika Anda adalah pengembang synapsemld yang ada, Anda perlu mengkonfigurasi ulang pengaturan pengembangan Anda. Kami sekarang mendukung pengembangan independen platform dan lebih baik berintegrasi dengan IntelliJ dan SBT. Jika Anda menemukan masalah, silakan hubungi email dukungan kami!
Layanan mikro yang cerdas skala besar
Pengambilan gambar bersyarat
MMLSPARK: Ekosistem Pembelajaran Mesin Menyatuan di Skala Masif
Pembelajaran mendalam yang fleksibel dan dapat diskalakan dengan synapseml
Pembuatan buku audio otomatis skala besar
Kunjungi situs web kami.
Tonton demo utama kami di KTT Spark+AI 2019, KTT European Spark+AI 2018, KTT Spark+AI 2018 dan Synapseml di The Spark Summit.
Lihat bagaimana synapseml digunakan untuk membantu spesies yang terancam punah.
Jelajahi karya seni permusuhan generatif dalam kolaborasi kami dengan Met dan MIT.
Jelajahi kolaborasi kami dengan Apache Spark pada analisis gambar.
Proyek ini telah mengadopsi kode perilaku open source Microsoft. Untuk informasi lebih lanjut, lihat FAQ Kode Perilaku atau hubungi [email protected] dengan pertanyaan atau komentar tambahan.
Lihat Kontribusi.MD untuk Pedoman Kontribusi.
Untuk memberikan umpan balik dan/atau melaporkan masalah, buka masalah GitHub.
Vowpal wabbit
Lightgbm
DMTK: Microsoft Distributed Machine Learning Toolkit
Rekomendasi
Plugin JPMML-SparkML untuk mengonversi model Synapseml LightGBM ke PMML
Microsoft Cognitive Toolkit
Apache®, Apache Spark, dan Spark® adalah merek dagang terdaftar atau merek dagang dari Yayasan Perangkat Lunak Apache di Amerika Serikat dan/atau negara lain.