
Оператор обучения Kubeflow-это Kubernetes-Con-Contive для точной настройки и масштабируемого распределенного обучения моделей машинного обучения (ML), созданных с различными структурами ML, такими как Pytorch, Tensorflow, Huggingface, Jax, Deepspeed, Xgboost, Paddlepaddle и другие.
Вы можете выполнять задачи высокопроизводительных вычислений (HPC) с оператором обучения и MPIJob поскольку он поддерживает запуск интерфейса передачи сообщений (MPI) на Kubernetes, который широко используется для HPC. Оператор обучения реализует версию API V1 API оператора MPI. Для версии MPI Operator V2, пожалуйста, следуйте этому руководству, чтобы установить MPI Operator V2.
Оператор обучения позволяет вам использовать рабочие нагрузки Kubernetes для эффективного обучения ваших крупных моделей через API -интерфейсы Kubernetes Custom Resources или с помощью оператора обучения Python SDK.
Пожалуйста, проверьте официальную документацию Kubeflow для предварительных условий для установки оператора обучения.
Пожалуйста, следуйте руководству по обучению Kubeflow для подробных инструкций о том, как установить оператор обучения.
Запустите следующую команду, чтобы установить последний стабильный выпуск плоскости управления оператором обучения: v1.8.0 .
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "Запустите следующую команду, чтобы установить последние изменения плоскости управления оператором обучения:
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "Оператор обучения реализует SDK Python для упрощения создания распределенных обучающих рабочих мест и настройки рабочих мест для ученых.
Запустите следующую команду, чтобы установить последний стабильный выпуск обучения SDK:
pip install -U kubeflow-training
Пожалуйста, обратитесь к руководству по началу работы, чтобы быстро создать вашу первую распределенную учебную работу, используя Python SDK.
Если вы хотите работать напрямую с пользовательскими ресурсами Kubernetes, предоставленными оператором обучения, следуйте руководству Mnist Pytorchjob.
В следующих ссылках предоставлена информация о том, как принять участие в сообществе:
#kubeflow-training Slack.Это часть Kubeflow, поэтому, пожалуйста, посмотрите README в Kubeflow/Kubeflow, чтобы связаться с сообществом.
Пожалуйста, обратитесь к руководству.
Пожалуйста, обратитесь к измене.
В следующей таблице перечислены самые последние версии оператора.
| Версия оператора | Версия API | Kubernetes версия |
|---|---|---|
v1.4.x | v1 | 1,23+ |
v1.5.x | v1 | 1,23+ |
v1.6.x | v1 | 1,23+ |
v1.7.x | v1 | 1,25+ |
v1.8.x | v1 | 1,27+ |
latest (Master Head) | v1 | 1,27+ |
Для полной ссылки на пользовательские определения ресурсов, пожалуйста, обратитесь к определению API.
Для получения подробной информации об API -интерфейсах оператора обучения операторов, см. Следующую документацию API
Этот проект первоначально был начат как распределенный учебный оператор для Tensorflow, а затем мы объединили усилия других операторов обучения Kubeflow, чтобы обеспечить унифицированный и упрощенный опыт как для пользователей, так и для разработчиков. Мы очень благодарны всем, кто подал проблемы или помогли решить их, задавали и ответили на вопросы, и были частью вдохновляющих дискуссий. Мы также хотели бы поблагодарить всех, кто внес свой вклад и поддерживал оригинальных операторов.