
KubeFlow培訓操作員是一個Kubernetes-native項目,用於使用Pytorch,Tensorflow,HuggingFace,Jax,DeepSpeed,Xgboost,PaddlePaddle等各種ML框架創建的機器學習(ML)模型(ML)模型。
您可以使用培訓操作員和MPIJob運行高性能計算(HPC)任務,因為它支持在Kubernetes上運行消息傳遞接口(MPI),該界面大量用於HPC。培訓操作員實現了MPI操作員的V1 API版本。對於MPI操作員V2版本,請遵循本指南安裝MPI操作員V2。
培訓操作員允許您使用Kubernetes工作負載來通過Kubernetes自定義資源API或使用培訓操作員Python SDK有效地訓練大型型號。
請檢查官方的Kubeflow文檔,以獲取安裝培訓操作員的先決條件。
請遵循KubeFlow培訓操作員指南,獲取有關如何安裝培訓操作員的詳細說明。
運行以下命令以安裝訓練操作員控制平面的最新穩定版本: v1.8.0 。
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "運行以下命令安裝訓練操作員控制平面的最新更改:
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "培訓操作員實施了Python SDK,以簡化為數據科學家創建分佈式培訓和微調工作。
運行以下命令以安裝培訓SDK的最新穩定版本:
pip install -U kubeflow-training
請參閱“入門指南”,以快速使用Python SDK快速創建您的第一個分佈式培訓工作。
如果您想直接與培訓操作員提供的Kubernetes自定義資源合作,請遵循Pytorchjob MNIST指南。
以下鏈接提供了有關如何參與社區的信息:
#kubeflow-training Slack通道。這是Kubeflow的一部分,因此請參閱Kubeflow/Kubeflow中的Readme,以與社區聯繫。
請參考貢獻指南。
請參考更改。
下表列出了運營商的最新版本。
| 操作員版本 | API版本 | Kubernetes版本 |
|---|---|---|
v1.4.x | v1 | 1.23+ |
v1.5.x | v1 | 1.23+ |
v1.6.x | v1 | 1.23+ |
v1.7.x | v1 | 1.25+ |
v1.8.x | v1 | 1.27+ |
latest (主頭) | v1 | 1.27+ |
有關自定義資源定義的完整引用,請參閱API定義。
有關培訓操作員自定義資源API的詳細信息,請參閱以下API文檔
該項目最初是作為Tensorflow的分佈式培訓運營商開始的,後來我們合併了其他KubeFlow培訓運營商的努力,以為用戶和開發人員提供統一和簡化的體驗。我們非常感謝所有提出問題或幫助解決問題,問和回答問題的人,並且是鼓舞人心的討論的一部分。我們還要感謝所有為原始運營商做出貢獻並維護原始運營商的人。