
Der Kubeflow-Schulungsbetreiber ist ein Kubernetes-natives Projekt für feine Stimmungen und skalierbare verteilte Trainings von maschinellem Lernmodellen (ML), die mit verschiedenen ML-Frameworks wie Pytorch, TensorFlow, Umarmung, JAX, Deepspeed, Xgboost, Paddlepaddle und anderen erstellt wurden.
Sie können Hochleistungs-Computing-Aufgaben (HPC) mit dem Trainingsoperator und MPIJob ausführen, da die Ausführungsmeldungs-Schnittstelle (MPI) auf Kubernetes unterstützt wird, die stark für HPC verwendet wird. Der Schulungsbetreiber implementiert die V1 -API -Version des MPI -Operators. Für die MPI -Operator V2 -Version folgen Sie diesem Handbuch, um den MPI -Operator V2 zu installieren.
Mit dem Schulungsbetreiber können Sie Kubernetes Workloads verwenden, um Ihre großen Modelle über Kubernetes Custom Resources -APIs oder den Trainingsbetreiber Python SDK effektiv zu trainieren.
Bitte überprüfen Sie die offizielle Kubeflow -Dokumentation, um die Voraussetzungen für die Installation des Schulungsbetreibers zu erhalten.
Bitte befolgen Sie den Kubeflow Training Operator Guide für die detaillierten Anweisungen zur Installation des Schulungsbetreibers.
Führen Sie den folgenden Befehl aus, um die neueste stabile Version der Steuerung der Schulungsbediener zu installieren: v1.8.0 .
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "Führen Sie den folgenden Befehl aus, um die neuesten Änderungen des Kontrollflugzeugs der Trainingsoperator zu installieren:
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "Der Schulungsbetreiber implementiert eine Python-SDK, um die Erstellung verteilter Trainings- und Feinabstimmungsjobs für Datenwissenschaftler zu vereinfachen.
Führen Sie den folgenden Befehl aus, um die neueste stabile Version des Trainings SDK zu installieren:
pip install -U kubeflow-training
Weitere Informationen zum Erste -Start -Leitfaden finden Sie mit dem Python SDK schnell Ihren ersten verteilten Schulungsjob.
Wenn Sie direkt mit kubernetes benutzerdefinierten Ressourcen zusammenarbeiten möchten, die vom Schulungsbetreiber bereitgestellt werden, folgen Sie dem Pytorchjob Mnist Guide.
Die folgenden Links bieten Informationen darüber, wie Sie sich in die Community engagieren können:
#kubeflow-training Slack-Kanal an.Dies ist ein Teil von Kubeflow. Siehe Readme in Kubeflow/Kubeflow, um mit der Community in Kontakt zu treten.
Weitere Informationen finden Sie im Beitragshandbuch.
Bitte beachten Sie den ChangeLog.
In der folgenden Tabelle werden die neuesten Versionen des Bedieners aufgeführt.
| Operatorversion | API -Version | Kubernetes -Version |
|---|---|---|
v1.4.x | v1 | 1.23+ |
v1.5.x | v1 | 1.23+ |
v1.6.x | v1 | 1.23+ |
v1.7.x | v1 | 1,25+ |
v1.8.x | v1 | 1,27+ |
latest (Master Head) | v1 | 1,27+ |
Eine vollständige Referenz der benutzerdefinierten Ressourcendefinitionen finden Sie in der API -Definition.
Weitere Informationen zum Custom Resources APIs für den Schulungsbetreiber finden Sie in der folgenden API -Dokumentation
Dieses Projekt wurde ursprünglich als verteilter Schulungsbetreiber für TensorFlow gestartet. Später haben wir die Bemühungen anderer Kubeflow -Schulungsbetreiber zusammengeführt, um sowohl Benutzern als auch Entwicklern ein einheitliches und vereinfachtes Erlebnis zu bieten. Wir sind allen, die Probleme eingereicht haben oder sie gelöst haben, Fragen gestellt, Fragen gestellt und beantwortet und Teil der inspirierenden Diskussionen waren. Wir möchten uns auch bei allen bedanken, die die ursprünglichen Betreiber beigetragen und unterhalten haben.