版本:v2.8.0
验证 HAMi 部署与 vGPU 行为
部署 HAMi 之后,验证安装是否正常工作以及 vGPU 资源隔离是否符合预期至关重要。本指南将带你逐步完成验证流程,从检查原生 GPU 栈到确认容器内的 vGPU 行为。
适用范围与前提条件
本指南假 设 HAMi 已经安装完成(例如,通过快速开始部分中的使用 Helm 部署 HAMi 指南)。
本文档的目标不是重复安装步骤,而是验证 HAMi 在真实的 Kubernetes 环境中是否正常工作,包括 GPU 访问和 vGPU 行为。
如果 HAMi 尚未安装,请先按照部署指南完成安装。
步骤 0:配置节点容器运行时(如果尚未配置)
HAMi 要求在所有 GPU 节点上安装 nvidia-container-toolkit,并将其设置为默认的低级别运行时。
1. 安装 nvidia-container-toolkit(以 Debian/Ubuntu 为例)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list \
| sudo tee /etc/apt/sources.list.d/libnvidia-container.list
curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add -
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
2. 配置运行时
-
对于 containerd:编辑
/etc/containerd/config.toml,将默认运行时名称设置为"nvidia",二进制文件名称设置为"/usr/bin/nvidia-container-runtime"。-
重启服务:
sudo systemctl daemon-reload && sudo systemctl restart containerd
-
-
对于 Docker:编辑
/etc/docker/daemon.json,设置"default-runtime": "nvidia"。-
重启服务:
sudo systemctl daemon-reload && sudo systemctl restart docker
-
步骤 1:验证原生 GPU 栈(关键预检步骤)
在安装 HAMi 之前,必须证明 Kubernetes 能够原生访问 GPU。
此步骤独立于 HAMi 验证你的 GPU 栈。