故障排查
旧版本
本页面介绍的是 Kubeflow Pipelines V1,请参阅 V2 文档 以获取最新信息。
注意,虽然 V2 后端能够运行 V1 SDK 提交的流水线,但我们强烈建议迁移到 V2 SDK。作为参考,V1 SDK 的最终发布版本是 kfp==1.8.22
,其参考文档可在此处获取。
本页面提供了一些针对您可能遇到的特定问题的故障排查提示。
诊断您的 Kubeflow Pipelines 环境中的问题
如需诊断影响 Kubeflow Pipelines 的环境问题,请运行kfp diagnose_me
命令行工具。
kfp diagnose_me
CLI 会报告您的本地开发环境、Kubernetes 集群或 Google Cloud 环境的配置。使用此命令可以帮助解决如下问题:
- Python 库依赖项
- 使用 Kubernetes secrets 访问资源或 API 时遇到问题
- 访问 Persistent Volume Claims 时遇到问题
要使用 kfp diagnose_me
CLI,请按照以下步骤操作:
- 安装Kubeflow Pipelines SDK。
- 按照配置访问 Kubernetes 集群的指南,更新您的 kubeconfig 文件,填入适当的凭据和端点信息,以访问您的 Kubeflow 集群。如果您的 Kubeflow Pipelines 集群托管在 Google Cloud 等云提供商上,请使用您的云提供商提供的配置访问 Kubernetes 集群的说明。
- 运行
kfp diagnose_me
命令。 - 分析结果以排查您的环境问题。
Kubeflow Pipelines SDK 故障排查
以下部分介绍了如何解决安装或使用 Kubeflow Pipelines SDK 时可能出现的问题。
错误:找不到满足 kfp 要求的版本
此错误表明您尚未在 Python3 环境中安装 kfp
包。如果您尚未安装 SDK,请按照Kubeflow Pipelines SDK 安装指南中的说明进行操作。
如果您已经安装了 Kubeflow Pipelines SDK,请检查您的 Python 版本是否为 3.5 或更高版本:
python3 -V
响应应类似于以下内容:
Python 3.7.3
如果您的 Python 版本不是 3.5 或更高版本,您可以从 Python Software Foundation下载 Python。
未找到 kfp 或 dsl-compile 命令
如果您使用 --user
标志安装 Kubeflow Pipelines SDK,在使用 kfp
或 dsl-compile
命令行工具时可能会遇到以下错误。
bash: kfp: command not found
此错误发生的原因是,使用 --user
安装 Kubeflow Pipelines SDK 会将 kfp
和 dsl-compile
存储在您的 ~/.local/bin
目录中。在某些 Linux 发行版中,~/.local/bin
目录不包含在 $PATH 环境变量中。
您可以通过使用以下任一选项来解决此问题:
- 将
export $PATH=$PATH:~/.local/bin
添加到您的~/.bashrc
文件末尾。然后重新启动您的终端会话或运行source ~/.bashrc
。 - 将
kfp
和dsl-compile
命令作为~/.local/bin/kfp
和~/.local/bin/dsl-compile
运行。
TFX 可视化未显示或报错
确认您的 Kubeflow Pipelines 后端版本与您的 TFX 版本兼容,请参阅Kubeflow Pipelines 兼容性矩阵。