
L'opérateur de formation Kubeflow est un projet natif de Kubernetes pour les modèles de réglage fin et évolutif de l'apprentissage automatique (ML) créés avec divers cadres ML tels que Pytorch, Tensorflow, Huggingface, Jax, Deeppeed, Xgboost, Paddlepadddle et autres.
Vous pouvez exécuter des tâches informatiques hautes performances (HPC) avec l'opérateur de formation et MPIJob car il prend en charge l'interface de passage de messages (MPI) sur Kubernetes qui est fortement utilisé pour HPC. L'opérateur de formation implémente la version API V1 de l'opérateur MPI. Pour la version MPI Operator V2, veuillez suivre ce guide pour installer MPI Operator V2.
L'opérateur de formation vous permet d'utiliser des charges de travail Kubernetes pour former efficacement vos grands modèles via des API de ressources personnalisées Kubernetes ou en utilisant le SDK de l'opérateur de formation Python.
Veuillez consulter la documentation officielle de Kubeflow pour les conditions préalables pour installer l'opérateur de formation.
Veuillez suivre le guide de l'opérateur de formation de Kubeflow pour les instructions détaillées sur la façon d'installer l'opérateur de formation.
Exécutez la commande suivante pour installer la dernière version stable du plan de contrôle de l'opérateur de formation: v1.8.0 .
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "Exécutez la commande suivante pour installer les dernières modifications du plan de contrôle de l'opérateur de formation:
kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "L'opérateur de formation met en œuvre un SDK Python pour simplifier la création d'une formation distribuée et des travaux de réglage fin pour les scientifiques des données.
Exécutez la commande suivante pour installer la dernière version stable du SDK de formation:
pip install -U kubeflow-training
Veuillez vous référer au Guide de démarrage pour créer rapidement votre premier travail de formation distribué à l'aide du SDK Python.
Si vous souhaitez travailler directement avec les ressources personnalisées de Kubernetes fournies par l'opérateur de formation, suivez le guide Pytorchjob MNIST.
Les liens suivants fournissent des informations sur la façon de s'impliquer dans la communauté:
#kubeflow-training .Cela fait partie de Kubeflow, alors veuillez consulter ReadMe dans Kubeflow / Kubeflow pour entrer en contact avec la communauté.
Veuillez vous référer au guide de contribution.
Veuillez vous référer au Changelog.
Le tableau suivant répertorie les quelques versions les plus récentes de l'opérateur.
| Version de l'opérateur | Version API | Version kubernetes |
|---|---|---|
v1.4.x | v1 | 1.23+ |
v1.5.x | v1 | 1.23+ |
v1.6.x | v1 | 1.23+ |
v1.7.x | v1 | 1.25+ |
v1.8.x | v1 | 1.27+ |
latest (chef maître) | v1 | 1.27+ |
Pour une référence complète des définitions de ressources personnalisées, veuillez vous référer à la définition de l'API.
Pour plus de détails sur les API des ressources personnalisées de l'opérateur de formation, reportez-vous à la documentation API suivante
Ce projet a été initialement lancé en tant qu'opérateur de formation distribué pour TensorFlow et plus tard, nous avons fusionné les efforts d'autres opérateurs de formation de Kubeflow pour offrir une expérience unifiée et simplifiée aux utilisateurs et aux développeurs. Nous sommes très reconnaissants à tous ceux qui ont déposé des problèmes ou aidé à les résoudre, à poser et à répondre à des questions, et ont fait partie des discussions inspirantes. Nous tenons également à remercier tous ceux qui ont contribué et ont maintenu les opérateurs d'origine.