迁移到 Kubeflow Trainer V2
如何迁移到新的 Kubeflow Trainer V2。
概览
Kubeflow Trainer 是 Kubeflow Training Operator 项目的一个重要更新。
Kubeflow Trainer 引入的关键特性包括
新的 CRD:TrainJob、TrainingRuntime 和 ClusterTrainingRuntime API。这些 API 使得创建分布式模型训练和 LLM 微调的模板成为可能。它抽象了 Kubernetes 的复杂性,为数据科学家和 ML 工程师提供了更直观的体验。
Kubeflow Python SDK:进一步增强 ML 用户体验,并提供与 Kubeflow Trainer API 的无缝集成。
自定义数据集和模型初始化器:简化分布式训练节点上的资产初始化,并通过将 I/O 任务分载到 CPU 工作负载来降低 GPU 成本。
增强的 MPI 支持:具有 MPI-Operator V2 特性,通过基于 SSH 的优化来提升 MPI 性能。
迁移路径
待办 (andreyvelich):添加迁移文档。
上次修改于 2025年2月11日:trainer: Kubeflow Trainer V2 的初始文档 (#3958) (10b7063)