安装

如何安装 Training Operator

本指南介绍如何在 Kubernetes 集群上安装 Training Operator。Training Operator 是一个轻量级的 Kubernetes 控制器,用于编排适当的 Kubernetes 工作负载以执行分布式机器学习训练和微调。

先决条件

以下是安装 Training Operator 的最低要求

  • Kubernetes >= 1.28
  • kubectl >= 1.28
  • Python >= 3.7

安装 Training Operator

您需要安装 Training Operator 控制平面和 Python SDK 来创建训练作业。

安装控制平面

如果您已经使用清单或包分发方式安装了 Kubeflow 平台,则可以跳过这些步骤。Kubeflow 平台包含 Training Operator。

您可以将 Training Operator 作为独立组件进行安装。

运行以下命令安装 Training Operator 控制平面的稳定版本:v1.8.1

kubectl apply --server-side -k "github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.1"

运行以下命令安装 Training Operator 控制平面的最新更改

kubectl apply --server-side -k "github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=master"

安装后,您可以通过以下方式验证 Training Operator 控制器是否正在运行

$ kubectl get pods -n kubeflow

NAME                                             READY   STATUS    RESTARTS   AGE
training-operator-658c68d697-46zmn               1/1     Running   0          90s

运行此命令检查为每个支持的 ML 框架安装的 Kubernetes CRD

$ kubectl get crd

mpijobs.kubeflow.org                                     2023-06-09T00:31:07Z
mxjobs.kubeflow.org                                      2023-06-09T00:31:05Z
paddlejobs.kubeflow.org                                  2023-06-09T00:31:09Z
pytorchjobs.kubeflow.org                                 2023-06-09T00:31:06Z
tfjobs.kubeflow.org                                      2023-06-09T00:31:04Z
xgboostjobs.kubeflow.org                                 2023-06-09T00:31:04Z

安装 Python SDK

Training Operator 实现了 Python SDK 以简化分布式训练和微调作业的创建。

运行以下命令安装 Training SDK 的最新稳定版本

pip install -U kubeflow-training

运行以下命令安装 Training SDK 的最新更改

pip install git+https://github.com/kubeflow/training-operator.git@master#subdirectory=sdk/python

或者,您也可以使用特定的 GitHub commit 来安装 Training SDK,例如

pip install git+https://github.com/kubeflow/training-operator.git@7345e33b333ba5084127efe027774dd7bed8f6e6#subdirectory=sdk/python

安装具有微调能力的 Python SDK

如果您想使用 train API 通过 Training Operator 进行 LLM 微调,请安装带有 HuggingFace 附加包的 Python SDK

pip install -U "kubeflow-training[huggingface]"

后续步骤

按照入门指南运行您的第一个 Training Operator 作业。

反馈

此页面是否有帮助?