
Kubeflow Training Operator es un proyecto nativo de Kubernetes para modelos distribuidos de ajuste finos y escalables de modelos de aprendizaje automático (ML) creados con varios marcos ML como Pytorch, TensorFlow, Huggingface, Jax, Deepspeed, Xgboost, PaddlePaddle y otros.
Puede ejecutar tareas de computación de alto rendimiento (HPC) con el operador de capacitación y MPIJob ya que admite la ejecución de la interfaz de paso de mensajes (MPI) en Kubernetes, que se usa mucho para HPC. El operador de capacitación implementa la versión API V1 del operador MPI. Para la versión MPI Operator V2, siga esta guía para instalar MPI Operator V2.
El operador de capacitación le permite usar cargas de trabajo de Kubernetes para capacitar de manera efectiva a sus grandes modelos a través de las API de recursos personalizados de Kubernetes o usar el operador de capacitación Python SDK.
Consulte la documentación oficial de Kubeflow para obtener requisitos previos para instalar el operador de capacitación.
Siga la Guía del Operador de Capacitación Kubeflow para obtener las instrucciones detalladas sobre cómo instalar el operador de capacitación.
Ejecute el siguiente comando para instalar la última versión estable del plano de control del operador de entrenamiento: v1.8.0 .
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "Ejecute el siguiente comando para instalar los últimos cambios del plano de control del operador de entrenamiento:
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "El operador de capacitación implementa un SDK de Python para simplificar la creación de capacitación distribuida y trabajos de ajuste fino para los científicos de datos.
Ejecute el siguiente comando para instalar la última versión estable del SDK de entrenamiento:
pip install -U kubeflow-training
Consulte la Guía Getting Start para crear rápidamente su primer trabajo de capacitación distribuido utilizando el Python SDK.
Si desea trabajar directamente con los recursos personalizados de Kubernetes proporcionados por el operador de capacitación, siga la Guía PytorchJob Mnist.
Los siguientes enlaces proporcionan información sobre cómo involucrarse en la comunidad:
#kubeflow-training .Esta es una parte de Kubeflow, así que vea ReadMe en Kubeflow/Kubeflow para ponerse en contacto con la comunidad.
Consulte la guía contribuyente.
Consulte el ChangeLog.
La siguiente tabla enumera las versiones más recientes del operador.
| Versión de operador | Versión API | Versión de Kubernetes |
|---|---|---|
v1.4.x | v1 | 1.23+ |
v1.5.x | v1 | 1.23+ |
v1.6.x | v1 | 1.23+ |
v1.7.x | v1 | 1.25+ |
v1.8.x | v1 | 1.27+ |
latest (cabeza maestra) | v1 | 1.27+ |
Para obtener una referencia completa de las definiciones de recursos personalizados, consulte la definición de API.
Para obtener detalles sobre las API de recursos personalizados del operador de capacitación, consulte la siguiente documentación de API
Este proyecto se inició originalmente como un operador de capacitación distribuido para TensorFlow y luego fusionamos los esfuerzos de otros operadores de capacitación de Kubeflow para proporcionar una experiencia unificada y simplificada tanto para usuarios como para desarrolladores. Estamos muy agradecidos a todos los que presentaron problemas o ayudamos a resolverlos, hicieron y respondieron preguntas, y fuimos parte de discusiones inspiradoras. También nos gustaría agradecer a todos los que han contribuido y mantenido a los operadores originales.