概述

Kubeflow 模型注册中心概述

什么是模型注册中心?

模型注册中心是 AI/ML 模型生命周期中的重要组成部分,是任何 MLOps 平台和 ML 工作流程的组成部分。

Model Registry MLOps loop

模型注册中心为 ML 模型开发者提供了一个中心索引,用于索引和管理模型、版本和 ML 制品元数据。它弥合了模型实验和生产活动之间的差距。它为 ML 生命周期中的所有利益相关者提供了一个中心界面,以便他们就 ML 模型进行协作。

Kubeflow Components in ML Lifecycle

  • 创建:在创建阶段,模型注册中心促进不同团队之间的协作,以便跟踪更改、试验不同的模型架构并维护模型迭代历史记录。
  • 验证:在验证阶段,模型注册中心支持在进一步开发之前进行严格的测试和验证,并维护每个版本的性能指标和测试结果记录。
  • 打包:模型注册中心协助组织模型制品和依赖项,从而实现与部署管道的无缝集成并确保跨环境的可重复性。
  • 发布:发布模型时,模型注册中心管理已验证版本向生产就绪状态的过渡,帮助组织维护版本控制规范并促进审批工作流程。
  • 部署:在部署期间,模型注册中心提供已批准模型版本和相关制品的信息,确保跨部署环境的一致性和可追溯性。
  • 监控:在监控阶段,模型注册中心通过维护已部署模型的完整记录并链接到其性能指标,支持持续的性能监控和模型漂移检测,从而在需要时促进主动维护和再训练。

DevOps、数据科学家和开发者需要在 ML 工作流程中与其他人协作,以便将模型投入生产。数据科学家需要一种高效的方式与其他需要访问这些模型作为 MLOps 工作流程一部分的用户共享模型版本、制品和元数据。

用例

本节描述了在包含模型训练、实验和部署的 MLOps 平台上下文中模型注册中心的用例。

一家公司 ACME Inc. 正在开发一个用于预测客户流失的机器学习模型。他们需要一个集中的模型注册中心作为其 MLOps 平台(基于 Kubeflow)的一部分,用于管理其 ML 模型开发生命周期,包括训练、实验和部署。他们希望确保模型治理、可重复性以及数据科学家和工程师之间的有效协作。

角色

  • 数据科学家:开发和评估用于客户流失预测的不同模型。跟踪各种模型版本的性能,以便轻松进行比较。
  • MLOps 工程师:将所选模型部署到生产环境。使用最新的模型版本及其元数据来配置部署环境。
  • 业务分析师:监控已部署模型的性能,并根据其预测做出决策。使用模型谱系和元数据来驱动业务成果。

用例 1:跟踪模型的训练

数据科学家使用 Kubeflow Notebooks 进行探索性研究,并训练多种类型的模型,使用不同的超参数和指标。使用 Kubeflow 模型注册中心跟踪这些模型,以便进行比较并确定性能最佳的模型。一旦选定获胜模型,数据科学家通过在注册中心维护适当的状态标记与团队共享该模型。数据科学家还跟踪训练数据源和 notebook 代码的谱系。

  • 跟踪存储中的可用模型:模型存储后,可以在 Kubeflow 模型注册中心进行跟踪以管理其生命周期。模型注册中心可以对这些信息进行编目、列表、索引、共享、记录和组织。这使得数据科学家可以比较不同版本并在需要时回滚到以前的版本。
  • 跟踪和比较性能:查看每个模型版本的关键指标,例如准确率、召回率和精确率。这有助于确定用于部署的最佳性能模型。
  • 创建谱系:捕获数据、代码和模型之间的关系。这使得数据科学家能够了解每个模型的来源并重现特定实验。
  • 协作:与MLOps 工程师共享模型和实验详情,以准备部署。这确保了从训练到生产的无缝过渡。

用例 2:试验不同的模型权重以优化模型准确性

数据科学家在确定基础模型后,使用 Kubeflow Pipelines、Katib 和其他组件试验使用替代权重、超参数和其他变体进行模型训练,以提高模型的性能指标;可以使用 Kubeflow 模型注册中心跟踪与实验和运行相关的数据,以便进行比较、实现可重复性和协作。

  • 注册基础模型:在模型注册中心中跟踪基础模型存储位置以及超参数。
  • 跟踪实验/运行:使用 Kubeflow 管道或 Kubeflow Notebooks,跟踪特定实验中的超参数的每个变体以及任何配置。每次运行时,可以在模型注册中心跟踪不同的参数。
  • 跟踪和比较性能:每次运行时查看关键指标,例如准确率、召回率和精确率。这有助于数据科学家确定用于部署的最佳性能运行/实验。
  • 可重复性:如果需要,可以重播模型注册中心中跟踪的数据,以再次执行实验/运行来重现模型。
  • 协作:与MLOps 工程师共享模型和实验详情,以准备部署。这确保了从训练到生产的无缝过渡。

用例 3:模型部署

MLOps 工程师使用 Kubeflow 模型注册中心定位给定模型的最新版本,验证其已获批用于部署,了解模型格式、架构、超参数和性能指标以配置服务环境;部署后,模型注册中心用于继续监控和跟踪已部署模型的性能并缓解漂移。

  • 检索最新模型版本:轻松访问获批用于部署的模型版本。
  • 访问模型元数据:了解模型的架构、超参数和性能指标。这有助于 MLOps 工程师配置部署环境并在部署后监控性能。
  • 管理服务配置:定义模型如何为生产应用提供服务并设置必要的资源。
  • 跟踪模型部署:监控已部署模型的性能并随时间跟踪其健康状况。这使得 MLOps 工程师能够识别潜在问题并采取纠正措施。

用例 4:监控和治理

业务分析师使用 Kubeflow 模型注册中心审计已部署模型,通过与可观察性工具集成来监控模型性能以跟踪关键指标并确定模型何时漂移或需要再训练;模型谱系能力可以识别所有相关制品,例如使用的训练或原始训练数据。

  • 查看模型性能指标:链接到实时跟踪关键指标的可观察性工具,以了解模型在生产环境中的表现。
  • 识别模型漂移:通过与其他工具集成,可以将其用作参考和基线,以检测模型的预测是否偏离预期行为。
  • 访问模型谱系:了解模型的来源和训练详情,以诊断和解决性能问题。
  • 审计模型使用情况:跟踪谁使用模型,确保符合数据隐私和安全法规。与谱系结合,它们在受严格监管的行业(例如:金融服务行业、医疗保健等)以及国家法规(例如:GDPR、欧盟人工智能法案等)方面提供了非常重要的能力。

模型注册中心的优点

  • 改进协作:促进数据科学家和 MLOps 工程师之间的沟通与协作。
  • 改进实验管理:在集中位置组织和跟踪实验,以获得更好的组织性和可访问性。
  • 版本控制:跟踪具有不同权重配置的模型不同版本,以便进行比较并在需要时回滚到以前的版本。
  • 提高效率:简化模型开发和部署流程。
  • 增强治理:确保模型符合法规和组织政策。
  • 可重复性:能够重新创建特定实验和模型版本。
  • 更好的决策:提供数据驱动的见解,以提高模型性能和业务成果。

结论

通过实现模型注册中心,ACME Inc. 可以显著增强其 MLOps 平台的功能,实现高效的模型训练、实验和部署。模型注册中心赋能数据科学家、MLOps 工程师和业务分析师有效协作,并基于可靠的数据和见解做出明智决策。

下一步

反馈

此页是否有帮助?


上次修改时间 2025年3月29日:网站:添加深色主题 (#3981) (4f092f1)