
Kubeflow Training Operator เป็นโครงการ Kubernetes-Native สำหรับการปรับแต่งและปรับขนาดการฝึกอบรมแบบกระจายของเครื่องจักรการเรียนรู้ของเครื่องจักร (ML) ที่สร้างขึ้นด้วยเฟรมเวิร์ก ML ต่างๆเช่น Pytorch, Tensorflow, Huggingface, Jax, Deepspeed, Xgboost, Paddlepaddle และอื่น ๆ
คุณสามารถเรียกใช้งานการคำนวณประสิทธิภาพสูง (HPC) กับผู้ประกอบการฝึกอบรมและ MPIJob เนื่องจากรองรับการเรียกใช้ข้อความที่ผ่านอินเตอร์เฟส (MPI) บน Kubernetes ซึ่งใช้อย่างมากสำหรับ HPC ผู้ประกอบการฝึกอบรมใช้เวอร์ชัน V1 API ของผู้ให้บริการ MPI สำหรับเวอร์ชัน MPI Operator V2 โปรดทำตามคู่มือนี้เพื่อติดตั้ง MPI Operator V2
ผู้ประกอบการฝึกอบรมช่วยให้คุณใช้เวิร์กโหลด Kubernetes เพื่อฝึกอบรมรุ่นใหญ่ของคุณอย่างมีประสิทธิภาพผ่าน Kubernetes Resources APIs ที่กำหนดเองหรือใช้ Python SDK ผู้ประกอบการฝึกอบรม
โปรดตรวจสอบเอกสาร Kubeflow อย่างเป็นทางการสำหรับข้อกำหนดเบื้องต้นในการติดตั้งผู้ประกอบการฝึกอบรม
โปรดติดตามคู่มือผู้ให้บริการฝึกอบรม Kubeflow สำหรับคำแนะนำโดยละเอียดเกี่ยวกับวิธีการติดตั้งผู้ให้บริการฝึกอบรม
เรียกใช้คำสั่งต่อไปนี้เพื่อติดตั้งรีลีสที่เสถียรล่าสุดของเครื่องบินควบคุมการฝึกอบรม: v1.8.0
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "เรียกใช้คำสั่งต่อไปนี้เพื่อติดตั้งการเปลี่ยนแปลงล่าสุดของเครื่องบินควบคุมการฝึกอบรม:
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "ผู้ประกอบการฝึกอบรมใช้ Python SDK เพื่อลดความซับซ้อนของการสร้างการฝึกอบรมแบบกระจายและงานปรับแต่งสำหรับนักวิทยาศาสตร์ข้อมูล
เรียกใช้คำสั่งต่อไปนี้เพื่อติดตั้งรีลีสที่เสถียรล่าสุดของการฝึกอบรม SDK:
pip install -U kubeflow-training
โปรดดูคู่มือการเริ่มต้นเพื่อสร้างงานฝึกอบรมแบบกระจายครั้งแรกของคุณอย่างรวดเร็วโดยใช้ Python SDK
หากคุณต้องการทำงานโดยตรงกับ Kubernetes ทรัพยากรที่กำหนดเองโดยผู้ให้บริการฝึกอบรมให้ทำตามคู่มือ Pytorchjob MNIST
ลิงค์ต่อไปนี้ให้ข้อมูลเกี่ยวกับวิธีการมีส่วนร่วมในชุมชน:
#kubeflow-training ของเรานี่เป็นส่วนหนึ่งของ Kubeflow ดังนั้นโปรดดู readme ใน Kubeflow/Kubeflow เพื่อติดต่อกับชุมชน
โปรดดูคู่มือการสนับสนุน
โปรดดูที่ Changelog
ตารางต่อไปนี้แสดงรายการผู้ให้บริการรุ่นล่าสุด
| เวอร์ชันโอเปอเรเตอร์ | เวอร์ชัน API | เวอร์ชัน Kubernetes |
|---|---|---|
v1.4.x | v1 | 1.23+ |
v1.5.x | v1 | 1.23+ |
v1.6.x | v1 | 1.23+ |
v1.7.x | v1 | 1.25+ |
v1.8.x | v1 | 1.27+ |
latest (หัวหน้าหลัก) | v1 | 1.27+ |
สำหรับการอ้างอิงที่สมบูรณ์ของคำจำกัดความทรัพยากรที่กำหนดเองโปรดดูคำจำกัดความ API
สำหรับรายละเอียดเกี่ยวกับ API ทรัพยากรที่กำหนดเองของผู้ประกอบการฝึกอบรมโปรดดูเอกสาร API ต่อไปนี้
โครงการนี้เริ่มต้นขึ้นในฐานะผู้ประกอบการฝึกอบรมแบบกระจายสำหรับ TensorFlow และต่อมาเราได้รวมความพยายามจากผู้ให้บริการฝึกอบรม Kubeflow อื่น ๆ เพื่อมอบประสบการณ์แบบครบวงจรและง่ายขึ้นสำหรับผู้ใช้และนักพัฒนา เราขอขอบคุณทุกคนที่ยื่นปัญหาหรือช่วยแก้ไขพวกเขาถามและตอบคำถามและเป็นส่วนหนึ่งของการอภิปรายที่สร้างแรงบันดาลใจ นอกจากนี้เรายังขอขอบคุณทุกคนที่มีส่วนร่วมและดูแลผู้ให้บริการดั้งเดิม