
Kubeflow Training Operator는 Pytorch, Tensorflow, Jax, DeepSpeed, Xgboost, Paddlepdade 등과 같은 다양한 ML 프레임 워크로 만든 ML (Machine Learning) 모델의 미세 조정 및 확장 가능한 분산 교육 (ML) 모델을위한 Kubernetes Native 프로젝트입니다.
HPC에 크게 사용되는 Kubernetes에서 MPI (Message Passsele Interface)를 지원하기 때문에 교육 연산자 및 MPIJob 와 함께 고성능 컴퓨팅 (HPC) 작업을 실행할 수 있습니다. 교육 연산자는 MPI 연산자의 V1 API 버전을 구현합니다. MPI 운영자 v2 버전의 경우이 안내서를 따라 MPI 운영자 v2를 설치하십시오.
교육 연산자를 사용하면 Kubernetes 워크로드를 사용하여 Kubernetes Custom Resources API를 통해 대형 모델을 효과적으로 훈련 시키거나 교육 연산자 Python SDK를 사용할 수 있습니다.
전제 조건에 대한 공식 Kubeflow 문서를 확인하여 교육 운영자를 설치하십시오.
교육 운영자를 설치하는 방법에 대한 자세한 지침은 Kubeflow Training Operator Guide를 참조하십시오.
다음 명령을 실행하여 교육 연산자 제어 평면의 최신 안정적인 릴리스를 설치하십시오 : v1.8.0 .
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "다음 명령을 실행하여 교육 운영자 제어 평면의 최신 변경 사항을 설치하십시오.
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "교육 운영자는 파이썬 SDK를 구현하여 데이터 과학자를위한 분산 교육 및 미세 조정 작업의 생성을 단순화합니다.
Training SDK의 최신 안정적인 릴리스를 설치하려면 다음 명령을 실행하십시오.
pip install -U kubeflow-training
Python SDK를 사용하여 첫 번째 분산 교육 작업을 신속하게 작성하려면 시작 가이드를 참조하십시오.
교육 연산자가 제공하는 Kubernetes 사용자 정의 리소스와 직접 작업하려면 Pytorchjob MNIST 가이드를 따르십시오.
다음 링크는 커뮤니티에 참여하는 방법에 대한 정보를 제공합니다.
#kubeflow-training Slack 채널에 가입하십시오.이것은 Kubeflow의 일부이므로 커뮤니티와 연락하려면 Kubeflow/Kubeflow의 ReadMe를 참조하십시오.
기고 가이드를 참조하십시오.
ChangeLog를 참조하십시오.
다음 표에는 가장 최근 몇 가지 버전의 연산자가 나와 있습니다.
| 운영자 버전 | API 버전 | Kubernetes 버전 |
|---|---|---|
v1.4.x | v1 | 1.23+ |
v1.5.x | v1 | 1.23+ |
v1.6.x | v1 | 1.23+ |
v1.7.x | v1 | 1.25+ |
v1.8.x | v1 | 1.27+ |
latest (마스터 헤드) | v1 | 1.27+ |
사용자 정의 리소스 정의를 완전히 참조하려면 API 정의를 참조하십시오.
교육 운영자 사용자 정의 리소스 API에 대한 자세한 내용은 다음 API 문서를 참조하십시오.
이 프로젝트는 원래 Tensorflow의 분산 교육 운영자로 시작되었으며 나중에 다른 Kubeflow 교육 운영자의 노력을 병합하여 사용자와 개발자 모두에게 통일되고 단순화 된 경험을 제공했습니다. 우리는 문제를 제기하거나 문제를 해결하고 질문을하고 질문을했으며 영감을주는 토론의 일부였습니다. 또한 원래 운영자에게 기여하고 유지 한 모든 분들께 감사드립니다.