Die Open-Source Continuous Machine Learning Platform
Bauen Sie ML -Pipelines mit nur Python, laufen Sie auf Ihrem Laptop oder in der Wolke.
Sematic ist eine Open-Source-ML-Entwicklungsplattform. Sie können ML-Ingenieuren und Datenwissenschaftler willkürlich komplexe End-to-End-Pipelines mit einfachem Python schreiben und auf ihrer lokalen Maschine, in einer Cloud-VM oder in einem Kubernetes-Cluster ausführen, um Cloud-Ressourcen zu nutzen.
Sematic basiert auf Erkenntnissen, die sich in selbstfahrenden Automobilunternehmen versammeln. Es ermöglicht die Verkettung von Datenverarbeitungsjobs (z. B. Apache-Spark) mit Modelltraining (z. B. Pytorch, Tensorflow) oder einer anderen willkürlichen Python-Geschäftslogik in Typ-sicher, nachvollziehbare, reproduzierbare End-to-End-Pipelines, die in einem modernen Web-Dashboard überwacht und visualisiert werden können.
Lesen Sie unsere Dokumentation und treten Sie unserem Discord -Kanal bei.
Warum sematic
- Einfaches Onboarding - Keine Einsatz oder Infrastruktur, die für den Einstieg erforderlich ist, einfach Sematic lokal installieren und mit der Erkundung beginnen.
- Lokale Parität -Führen Sie denselben Code auf Ihrem lokalen Laptop und auf Ihrem Kubernetes-Cluster aus.
- End-to-End-Rückverfolgbarkeit -Alle Pipeline-Artefakte sind in einem Web-Dashboard bestehen, verfolgt und visualisierbar.
- Zugriff auf heterogene Berechnung - Passen Sie die erforderlichen Ressourcen für jeden Pipeline -Schritt an, um Ihre Leistung und Ihren Cloud -Fußabdruck zu optimieren (CPUs, Speicher, GPUs, Spark Cluster usw.).
- Reproduzierbarkeit - Um Ihre Pipelines aus der Benutzeroberfläche mit garantierter Reproduzierbarkeit von Ergebnissen auszutreiben
Erste Schritte
Um vor Ort zu beginnen, installieren Sie einfach Sematic in Ihrer Python -Umgebung:
Starten Sie das lokale Web -Dashboard:
Führen Sie eine Beispielpipeline aus:
$ sematic run examples/mnist/pytorch
Erstellen Sie ein neues Boilerplate -Projekt:
$ sematic new my_new_project
Oder aus einem vorhandenen Beispiel:
$ sematic new my_new_project --from examples/mnist/pytorch
Dann führen Sie es mit:
$ python3 -m my_new_project
Um Sematic in Kubernetes bereitzustellen und Cloud -Ressourcen zu nutzen, finden Sie in unserer Dokumentation.
Merkmale
- Leichtes Python SDK -Definieren Sie willkürlich komplexe End-to-End-Pipelines
- Pipeline Nisting - willkürlich Nistpipelines in größere Pipelines
- Dynamische Graphen -Python-definierte Diagramme ermöglichen Iterationen, bedingte Verzweigungen usw.
- Linienverfolgung - Alle Eingänge und Ausgänge aller Schritte werden bestehen und verfolgt
- Laufzeit-Typenprüfung -Scheitern Sie frühzeitig bei der Überprüfung des Laufzeit-Typs
- Web Dashboard - Pipelines in einer modernen Web -Benutzeroberfläche überwachen, verfolgen und visualisieren
- Artefaktvisualisierung - Visualisieren Sie alle Eingänge und Ausgänge aller Schritte im Web Dashboard
- Lokale Ausführung - Führen Sie Pipelines auf Ihrem lokalen Computer aus, ohne dass eine Einsatz erforderlich ist
- Cloud -Orchestrierung - Führen Sie Pipelines auf Kubernetes aus, um auf GPUs und andere Cloud -Ressourcen zuzugreifen
- Heterogene Rechenressourcen - Führen Sie verschiedene Schritte auf verschiedenen Maschinen aus (z. B. CPUs, Speicher, GPU, Funke usw.).
- Helm -Diagramm -Bereitstellung - Sematic auf Ihrem Kubernetes -Cluster installieren
- Pipeline -Wiederholungen - Pipelines aus der Benutzeroberfläche aus einem willkürlichen Punkt in der Grafik ausführen
- Stufenspeicherung - Cache teure Pipeline -Schritte für eine schnellere Iteration
- Stiefvollen Wiederholung - Erholen Sie sich von vorübergehenden Ausfällen bei Stufen -Wiederholungen
- Metadaten und Zusammenarbeit - Tags, Quellcode -Visualisierung, Docstrings, Notizen usw.
- Zahlreiche Integrationen - siehe unten
Integrationen
- Apache Spark -On-Demand In-Cluster-Spark Cluster
- Ray -On-Demand Ray In-Cluster Ray Ressourcen
- Snowflake - Abfragen Sie Ihr Data Warehouse einfach ab (auch andere Lagerhäuser unterstützt)
- Plotly, Matplotlib - Visualisieren Sie Plot -Artefakte im Web Dashboard
- PANDAS - Visualisieren Sie Datenfream -Artefakte im Dashboard
- GRAFANA - Betten Sie Grafana -Panels in das Web -Dashboard ein
- Bazel - Integrieren Sie sich in Ihr Bazel -Build -System
- Helmdiagramm - mit unserem Helm -Diagramm in Kubernetes bereitgestellt
- GIT - GIT -Informationen im Web Dashboard verfolgen
Gemeinschaft und Ressourcen
Erfahren Sie mehr über Sematic und setzen Sie sich mit den folgenden Ressourcen in Verbindung:
- Sematische Zielseite
- Dokumentation
- Discord -Kanal
- YouTube -Kanal
- Unser Blog
Beitragen!
Um zu Sematic beizutragen, sehen Sie sich offene Probleme mit dem Tag "Gute erste Ausgabe" an und setzen Sie sich mit uns auf Discord in Verbindung. Sie finden Anweisungen, wie Sie Ihre Entwicklungsumgebung in unseren Entwicklerdokumenten einrichten können. Wenn Sie ein Beispiel hinzufügen möchten, finden Sie diesen Leitfaden möglicherweise auch hilfreich.