安装
旧版本
此页面是关于 Kubeflow Training Operator V1 的,有关最新信息请查看 Kubeflow Trainer V2 文档。
本指南介绍如何在 Kubernetes 集群上安装 Training Operator。Training Operator 是一个轻量级的 Kubernetes 控制器,用于编排适当的 Kubernetes 工作负载以执行分布式机器学习训练和微调。
先决条件
以下是安装 Training Operator 的最低要求
- Kubernetes >= 1.28
kubectl
>= 1.28- Python >= 3.7
安装 Training Operator
您需要安装 Training Operator 控制平面和 Python SDK 来创建训练作业。
安装控制平面
如果您已经使用清单或包分发方式安装了 Kubeflow 平台,则可以跳过这些步骤。Kubeflow 平台包含 Training Operator。
您可以将 Training Operator 作为独立组件进行安装。
运行以下命令安装 Training Operator 控制平面的稳定版本:v1.8.1
kubectl apply --server-side -k "github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=v1.8.1"
运行以下命令安装 Training Operator 控制平面的最新更改
kubectl apply --server-side -k "github.com/kubeflow/training-operator.git/manifests/overlays/standalone?ref=master"
安装后,您可以通过以下方式验证 Training Operator 控制器是否正在运行
$ kubectl get pods -n kubeflow
NAME READY STATUS RESTARTS AGE
training-operator-658c68d697-46zmn 1/1 Running 0 90s
运行此命令检查为每个支持的 ML 框架安装的 Kubernetes CRD
$ kubectl get crd
mpijobs.kubeflow.org 2023-06-09T00:31:07Z
mxjobs.kubeflow.org 2023-06-09T00:31:05Z
paddlejobs.kubeflow.org 2023-06-09T00:31:09Z
pytorchjobs.kubeflow.org 2023-06-09T00:31:06Z
tfjobs.kubeflow.org 2023-06-09T00:31:04Z
xgboostjobs.kubeflow.org 2023-06-09T00:31:04Z
安装 Python SDK
Training Operator 实现了 Python SDK 以简化分布式训练和微调作业的创建。
运行以下命令安装 Training SDK 的最新稳定版本
pip install -U kubeflow-training
运行以下命令安装 Training SDK 的最新更改
pip install git+https://github.com/kubeflow/training-operator.git@master#subdirectory=sdk/python
或者,您也可以使用特定的 GitHub commit 来安装 Training SDK,例如
pip install git+https://github.com/kubeflow/training-operator.git@7345e33b333ba5084127efe027774dd7bed8f6e6#subdirectory=sdk/python
安装具有微调能力的 Python SDK
如果您想使用 train
API 通过 Training Operator 进行 LLM 微调,请安装带有 HuggingFace 附加包的 Python SDK
pip install -U "kubeflow-training[huggingface]"
后续步骤
按照入门指南运行您的第一个 Training Operator 作业。