
Operator Pelatihan Kubeflow adalah proyek asli Kubernetes untuk fine-tuning dan scalable Training Machine Learning (ML) model yang dibuat dengan berbagai kerangka kerja ML seperti Pytorch, Tensorflow, Huggingface, Jax, Deeppeed, XGBoost, PaddlePaddle dan lainnya.
Anda dapat menjalankan tugas komputasi berkinerja tinggi (HPC) dengan operator pelatihan dan MPIJob karena mendukung menjalankan antarmuka lewat pesan (MPI) pada Kubernetes yang banyak digunakan untuk HPC. Operator pelatihan mengimplementasikan operator MPI versi API V1. Untuk versi MPI Operator V2, silakan ikuti panduan ini untuk menginstal MPI Operator V2.
Operator pelatihan memungkinkan Anda untuk menggunakan beban kerja Kubernetes untuk secara efektif melatih model besar Anda melalui API sumber daya khusus Kubernetes atau menggunakan operator pelatihan Python SDK.
Silakan periksa dokumentasi Kubeflow resmi untuk prasyarat untuk menginstal operator pelatihan.
Harap ikuti Panduan Operator Pelatihan Kubeflow untuk instruksi terperinci tentang cara menginstal operator pelatihan.
Jalankan perintah berikut untuk menginstal rilis stabil terbaru dari Pesawat Kontrol Operator Pelatihan: v1.8.0 .
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "Jalankan perintah berikut untuk menginstal perubahan terbaru dari pesawat kontrol operator pelatihan:
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "Operator pelatihan mengimplementasikan SDK Python untuk menyederhanakan penciptaan pelatihan terdistribusi dan pekerjaan yang menyempurnakan bagi para ilmuwan data.
Jalankan perintah berikut untuk menginstal rilis stabil terbaru dari SDK pelatihan:
pip install -U kubeflow-training
Silakan merujuk ke Panduan Memulai untuk dengan cepat membuat pekerjaan pelatihan terdistribusi pertama Anda menggunakan Python SDK.
Jika Anda ingin bekerja secara langsung dengan sumber daya khusus Kubernetes yang disediakan oleh operator pelatihan, ikuti panduan Mnist Pytorchjob.
Tautan berikut memberikan informasi tentang cara terlibat dalam komunitas:
#kubeflow-training kami.Ini adalah bagian dari Kubeflow, jadi silakan lihat ReadMe di Kubeflow/Kubeflow untuk menghubungi komunitas.
Silakan merujuk ke panduan yang berkontribusi.
Silakan merujuk ke Changelog.
Tabel berikut mencantumkan beberapa versi terbaru dari operator.
| Versi operator | Versi API | Versi Kubernetes |
|---|---|---|
v1.4.x | v1 | 1.23+ |
v1.5.x | v1 | 1.23+ |
v1.6.x | v1 | 1.23+ |
v1.7.x | v1 | 1.25+ |
v1.8.x | v1 | 1.27+ |
latest (kepala utama) | v1 | 1.27+ |
Untuk referensi lengkap dari definisi sumber daya khusus, silakan merujuk ke definisi API.
Untuk perincian tentang Operator Pelatihan API Sumber Daya Kustom, lihat dokumentasi API berikut
Proyek ini awalnya dimulai sebagai operator pelatihan terdistribusi untuk TensorFlow dan kemudian kami menggabungkan upaya dari operator pelatihan Kubeflow lainnya untuk memberikan pengalaman terpadu dan disederhanakan bagi pengguna dan pengembang. Kami sangat berterima kasih kepada semua yang mengajukan masalah atau membantu menyelesaikannya, mengajukan dan menjawab pertanyaan, dan merupakan bagian dari diskusi yang menginspirasi. Kami juga ingin mengucapkan terima kasih kepada semua orang yang berkontribusi dan memelihara operator asli.