
KubeFlow培训操作员是一个Kubernetes-native项目,用于使用Pytorch,Tensorflow,HuggingFace,Jax,DeepSpeed,Xgboost,PaddlePaddle等各种ML框架创建的机器学习(ML)模型(ML)模型。
您可以使用培训操作员和MPIJob运行高性能计算(HPC)任务,因为它支持在Kubernetes上运行消息传递接口(MPI),该界面大量用于HPC。培训操作员实现了MPI操作员的V1 API版本。对于MPI操作员V2版本,请遵循本指南安装MPI操作员V2。
培训操作员允许您使用Kubernetes工作负载来通过Kubernetes自定义资源API或使用培训操作员Python SDK有效地训练大型型号。
请检查官方的Kubeflow文档,以获取安装培训操作员的先决条件。
请遵循KubeFlow培训操作员指南,获取有关如何安装培训操作员的详细说明。
运行以下命令以安装训练操作员控制平面的最新稳定版本: v1.8.0 。
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "运行以下命令安装训练操作员控制平面的最新更改:
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "培训操作员实施了Python SDK,以简化为数据科学家创建分布式培训和微调工作。
运行以下命令以安装培训SDK的最新稳定版本:
pip install -U kubeflow-training
请参阅“入门指南”,以快速使用Python SDK快速创建您的第一个分布式培训工作。
如果您想直接与培训操作员提供的Kubernetes自定义资源合作,请遵循Pytorchjob MNIST指南。
以下链接提供了有关如何参与社区的信息:
#kubeflow-training Slack通道。这是Kubeflow的一部分,因此请参阅Kubeflow/Kubeflow中的Readme,以与社区联系。
请参考贡献指南。
请参考更改。
下表列出了运营商的最新版本。
| 操作员版本 | API版本 | Kubernetes版本 |
|---|---|---|
v1.4.x | v1 | 1.23+ |
v1.5.x | v1 | 1.23+ |
v1.6.x | v1 | 1.23+ |
v1.7.x | v1 | 1.25+ |
v1.8.x | v1 | 1.27+ |
latest (主头) | v1 | 1.27+ |
有关自定义资源定义的完整引用,请参阅API定义。
有关培训操作员自定义资源API的详细信息,请参阅以下API文档
该项目最初是作为Tensorflow的分布式培训运营商开始的,后来我们合并了其他KubeFlow培训运营商的努力,以为用户和开发人员提供统一和简化的体验。我们非常感谢所有提出问题或帮助解决问题,问和回答问题的人,并且是鼓舞人心的讨论的一部分。我们还要感谢所有为原始运营商做出贡献并维护原始运营商的人。