用户指南

Training Operator 用户指南

如何使用 Kubeflow 微调 LLMs

Training Operator 中 LLM 微调 API 概述

如何在多集群环境中管理作业

PyTorch 训练 (PyTorchJob)

使用 PyTorchJob 训练 PyTorch 模型

TensorFlow 训练 (TFJob)

使用 TFJob 训练 TensorFlow 模型

PaddlePaddle 训练 (PaddleJob)

使用 PaddleJob 训练 PaddlePaddle 模型

XGBoost 训练 (XGBoostJob)

使用 XGBoostJob 训练 XGBoost 模型

JAX 训练 (JAXJob)

使用 JAXJob 训练 JAX 模型

作业调度

如何使用 gang-scheduling 调度作业

MPI 训练 (MPIJob)

使用 MPI 进行训练的说明

Prometheus 监控

Training Operator 的 Prometheus 指标

反馈

本页面是否有帮助?