使用 Training Operator 进行 LLM 微调

为什么 Training Operator 需要微调 API

旧版本

本页面介绍的是 Kubeflow Training Operator V1，有关最新信息请查阅Kubeflow Trainer V2 文档。

本页面解释了 Training Operator 微调 API 如何融入 Kubeflow 生态系统。

在快速发展的机器学习 (ML) 和人工智能 (AI) 领域，微调预训练模型的能力代表着以更少的时间和精力实现定制解决方案的重大飞跃。微调允许实践者通过在自定义数据集上训练大型语言模型 (LLM)，如 BERT 或 GPT，使其适应特定的需求。这个过程在保持模型架构和已学习参数的同时，使其与特定应用更相关。无论您在自然语言处理 (NLP)、图像分类或其他 ML 领域工作，微调都可以极大地提高现有模型在新数据集和问题上的性能和适用性。

为什么 Training Operator 的微调 API 如此重要？

在 Training Operator 中引入微调 API 对于在 Kubernetes 生态系统中工作的 ML 实践者来说是一个游戏规则改变者。过去，Training Operator 简化了 Kubernetes 上 ML 工作负载的编排，使得分布式训练更易于访问。然而，微调任务通常需要大量的手动干预，包括训练环境的配置和数据在节点间的分布。微调 API 旨在简化这一过程，提供了一个易于使用的 Python 接口，抽象掉了在分布式系统上设置和执行微调任务所涉及的复杂性。

Kubeflow 微调 API 背后的原理

在 Training Operator 中实现微调 API 是增强平台能力的合理一步。通过提供此 API，Training Operator 不仅简化了 ML 实践者的用户体验，还利用了其现有的分布式训练基础设施。这种方法与 Kubeflow 普及分布式 ML 训练的使命相符，使其更易于访问且不那么麻烦。该 API 促进了从模型开发到部署的无缝过渡，支持在自定义数据集上微调 LLMs，而无需大量的手动设置或 Kubernetes 内部结构的专业知识。

角色与关注点

不同的用户角色可以从该功能中受益

MLOps 工程师：可以利用该 API 自动化并简化微调任务的设置和执行，减少操作开销。
数据科学家：可以更专注于模型实验，减少分布式训练的后勤工作，加快迭代周期。
业务负责人：可以期待更快的定制 ML 解决方案交付时间，从而更快响应市场需求或运营挑战。
平台工程师：可以利用该 API 更好地操作 ML 工具包，确保管理 ML 工作流的可伸缩性和效率。

下一步

了解train API 背后的架构。

反馈

本页面有帮助吗？

感谢您的反馈！

很抱歉本页面未能帮到您。如果您有时间，请分享您的反馈，以便我们改进。

最后修改日期 2025年2月15日: trainer: Add deprecation warning to Training Operator v1 docs (#3997) (8ad90c5)