安装
如何安装 Kubeflow Trainer 控制平面
本指南介绍如何在 Kubernetes 集群上安装 Kubeflow Trainer 控制平面。
如果已经使用 manifests 或软件包发行版部署了 Kubeflow 平台,则可以跳过这些步骤,因为 Kubeflow Trainer 默认包含在其中。
先决条件
安装 Kubeflow Trainer 控制平面的最低要求如下:
- Kubernetes >= 1.28
kubectl
>= 1.28
安装 Kubeflow Trainer Controller Manager
运行以下命令部署 Kubeflow Trainer Controller Manager
kubectl apply --server-side -k "https://github.com/kubeflow/trainer.git/manifests/overlays/manager?ref=master"
确保 JobSet 和 Trainer Controller Manager Pods 正在运行
$ kubectl get pods -n kubeflow-system
NAME READY STATUS RESTARTS AGE
jobset-controller-manager-54968bd57b-88dk4 2/2 Running 0 65s
kubeflow-trainer-controller-manager-cc6468559-dblnw 1/1 Running 0 65s
安装 Kubeflow Training Runtimes
运行以下命令部署 Kubeflow Training Runtimes
kubectl apply --server-side -k "https://github.com/kubeflow/trainer.git/manifests/overlays/runtimes?ref=master"
后续步骤
上次修改于 2025年2月11日: trainer: Kubeflow Trainer V2 的初始文档 (#3958) (10b7063)