Скачать training operator - Скачать исходный код training operator

training operator

Другой исходный код

v1.8.1 release

Скачать

Оператор обучения Kubeflow

Статус сборки

Обзор

Оператор обучения Kubeflow-это Kubernetes-Con-Contive для точной настройки и масштабируемого распределенного обучения моделей машинного обучения (ML), созданных с различными структурами ML, такими как Pytorch, Tensorflow, Huggingface, Jax, Deepspeed, Xgboost, Paddlepaddle и другие.

Вы можете выполнять задачи высокопроизводительных вычислений (HPC) с оператором обучения и MPIJob поскольку он поддерживает запуск интерфейса передачи сообщений (MPI) на Kubernetes, который широко используется для HPC. Оператор обучения реализует версию API V1 API оператора MPI. Для версии MPI Operator V2, пожалуйста, следуйте этому руководству, чтобы установить MPI Operator V2.

Оператор обучения позволяет вам использовать рабочие нагрузки Kubernetes для эффективного обучения ваших крупных моделей через API -интерфейсы Kubernetes Custom Resources или с помощью оператора обучения Python SDK.

Предварительные условия

Пожалуйста, проверьте официальную документацию Kubeflow для предварительных условий для установки оператора обучения.

Установка

Пожалуйста, следуйте руководству по обучению Kubeflow для подробных инструкций о том, как установить оператор обучения.

Установка плоскости управления

Запустите следующую команду, чтобы установить последний стабильный выпуск плоскости управления оператором обучения: v1.8.0 .

kubectl apply --server-side=true -k " github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.0 "

Запустите следующую команду, чтобы установить последние изменения плоскости управления оператором обучения:

kubectl apply --server-side=true -k " github.com/kubeflow/training-operator/manifests/overlays/standalone "

Установка Python SDK

Оператор обучения реализует SDK Python для упрощения создания распределенных обучающих рабочих мест и настройки рабочих мест для ученых.

Запустите следующую команду, чтобы установить последний стабильный выпуск обучения SDK:

 pip install -U kubeflow-training

Начиная

Пожалуйста, обратитесь к руководству по началу работы, чтобы быстро создать вашу первую распределенную учебную работу, используя Python SDK.

Если вы хотите работать напрямую с пользовательскими ресурсами Kubernetes, предоставленными оператором обучения, следуйте руководству Mnist Pytorchjob.

Сообщество

В следующих ссылках предоставлена информация о том, как принять участие в сообществе:

Посетите встречи сообщества рабочих групп в двух неделе.
Присоединяйтесь к нашему каналу #kubeflow-training Slack.
Проверьте, кто использует учебный оператор.

Это часть Kubeflow, поэтому, пожалуйста, посмотрите README в Kubeflow/Kubeflow, чтобы связаться с сообществом.

Внося

Пожалуйста, обратитесь к руководству.

Изменить журнал

Пожалуйста, обратитесь к измене.

Матрица версии

В следующей таблице перечислены самые последние версии оператора.

Версия оператора	Версия API	Kubernetes версия
`v1.4.x`	`v1`	1,23+
`v1.5.x`	`v1`	1,23+
`v1.6.x`	`v1`	1,23+
`v1.7.x`	`v1`	1,25+
`v1.8.x`	`v1`	1,27+
`latest` (Master Head)	`v1`	1,27+

Ссылка

Для полной ссылки на пользовательские определения ресурсов, пожалуйста, обратитесь к определению API.

Tensorflow API определение
Определение API Pytorch
XGBOOST API Определение
MPI API определение
PaddlePaddle API определение
JAX API определение

Для получения подробной информации об API -интерфейсах оператора обучения операторов, см. Следующую документацию API

Подтверждение

Этот проект первоначально был начат как распределенный учебный оператор для Tensorflow, а затем мы объединили усилия других операторов обучения Kubeflow, чтобы обеспечить унифицированный и упрощенный опыт как для пользователей, так и для разработчиков. Мы очень благодарны всем, кто подал проблемы или помогли решить их, задавали и ответили на вопросы, и были частью вдохновляющих дискуссий. Мы также хотели бы поблагодарить всех, кто внес свой вклад и поддерживал оригинальных операторов.

Оператор Pytorch: список участников и сопровождающих.
Оператор MPI: список участников и сопровождающих.
XGBOOST Operator: Список участников и сопровождающих.
Общая библиотека: список участников и сопровождающих.

Расширять

Дополнительная информация