
مشغل تدريب Kubeflow هو مشروع نادي Kubeflnetes الأصلي للتصحيح والتدريب الموزع القابل للتطوير لنماذج التعلم الآلي (ML) الذي تم إنشاؤه مع مختلف أطر ML مثل Pytorch و Tensorflow و Huggingface و Jax و Deepspedeed و Xgboost و Paddlepaddle وغيرها.
يمكنك تشغيل مهام الحوسبة عالية الأداء (HPC) مع مشغل التدريب و MPIJob لأنها تدعم تشغيل واجهة تمرير الرسائل (MPI) على Kubernetes والتي تستخدم بكثافة في HPC. يقوم مشغل التدريب بتنفيذ إصدار V1 API من مشغل MPI. لإصدار MPI Operator V2 ، يرجى اتباع هذا الدليل لتثبيت MPI Operator V2.
يتيح لك مشغل التدريب استخدام أعباء عمل Kubernetes لتدريب نماذجك الكبيرة بشكل فعال عبر واجهات برمجة تطبيقات Kubernetes Custom Resources أو استخدام مشغل التدريب Python SDK.
يرجى التحقق من وثائق kubeflow الرسمية للمتطلبات الأساسية لتثبيت مشغل التدريب.
يرجى متابعة دليل مشغل التدريب Kubeflow للحصول على التعليمات التفصيلية حول كيفية تثبيت مشغل التدريب.
قم بتشغيل الأمر التالي لتثبيت أحدث إصدار مستقر لطائرة التحكم في مشغل التدريب: v1.8.0 .
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "قم بتشغيل الأمر التالي لتثبيت أحدث التغييرات في طائرة التحكم في مشغل التدريب:
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "يقوم مشغل التدريب بتنفيذ Python SDK لتبسيط إنشاء التدريب الموزعة ووظائف ضبطها لعلماء البيانات.
قم بتشغيل الأمر التالي لتثبيت أحدث إصدار مستقر للتدريب SDK:
pip install -U kubeflow-training
يرجى الرجوع إلى دليل البدء لإنشاء أول وظيفة تدريب موزعة باستخدام Python SDK.
إذا كنت ترغب في العمل مباشرة مع موارد Kubernetes المخصصة التي يوفرها مشغل التدريب ، اتبع دليل Pytorchjob Mnist.
توفر الروابط التالية معلومات حول كيفية المشاركة في المجتمع:
#kubeflow-training .هذا جزء من kubeflow ، لذا يرجى الاطلاع على readme في kubeflow/kubeflow للتواصل مع المجتمع.
يرجى الرجوع إلى دليل المساهمة.
يرجى الرجوع إلى changelog.
يسرد الجدول التالي أحدث إصدارات المشغل.
| نسخة المشغل | إصدار API | نسخة Kubernetes |
|---|---|---|
v1.4.x | v1 | 1.23+ |
v1.5.x | v1 | 1.23+ |
v1.6.x | v1 | 1.23+ |
v1.7.x | v1 | 1.25+ |
v1.8.x | v1 | 1.27+ |
latest (رئيس رئيسي) | v1 | 1.27+ |
للحصول على مرجع كامل لتعريفات الموارد المخصصة ، يرجى الرجوع إلى تعريف API.
للحصول على تفاصيل حول APIs لمشغل التدريب ، أوجه إلى وثائق API التالية
بدأ هذا المشروع في الأصل كمشغل تدريب موزع لـ TensorFlow ، ثم قمنا لاحقًا بدمج الجهود من مشغلي تدريب Kubeflow الآخرين لتوفير تجربة موحدة ومبسطة لكل من المستخدمين والمطورين. نحن ممتنون للغاية لجميع الذين قدموا القضايا أو ساعدنا في حلها ، وطرحهم وأجبوا على الأسئلة ، وكنا جزءًا من المناقشات الملهمة. نود أيضًا أن نشكر كل من ساهم في المشغلين الأصليين والحفاظ عليهم.