迁移到 Kubeflow Trainer V2

如何迁移到新的 Kubeflow Trainer V2。

概览

Kubeflow Trainer 是 Kubeflow Training Operator 项目的一个重要更新。

Kubeflow Trainer 引入的关键特性包括

  • 新的 CRD:TrainJob、TrainingRuntime 和 ClusterTrainingRuntime API。这些 API 使得创建分布式模型训练和 LLM 微调的模板成为可能。它抽象了 Kubernetes 的复杂性,为数据科学家和 ML 工程师提供了更直观的体验。

  • Kubeflow Python SDK:进一步增强 ML 用户体验,并提供与 Kubeflow Trainer API 的无缝集成。

  • 自定义数据集和模型初始化器:简化分布式训练节点上的资产初始化,并通过将 I/O 任务分载到 CPU 工作负载来降低 GPU 成本。

  • 增强的 MPI 支持:具有 MPI-Operator V2 特性,通过基于 SSH 的优化来提升 MPI 性能。

迁移路径

待办 (andreyvelich):添加迁移文档。

反馈

此页面有帮助吗?