版本:下一个
排障手册
GPU 显存限制未生效
如果容器超过了 nvidia.com/gpumem 限制,请检查以下原因:
-
设置了
CUDA_DISABLE_CONTROL=true— 完全禁用 HAMi-core 的限制功能。请从生产工作负载中移除该设置。 -
Docker-in-Docker (DinD) — 内层容器不会继承
/etc/ld.so.preloadhostPath 挂载。HAMi 的限制在 DinD 内部不生效。 -
直接调用驱动 API — 直接调用 NVML 或 CUDA Driver API 的工作负载会绕过
libvgpu.so。 -
nvidia-container-runtime未设为默认运行时 — 使用以下命令验证:containerd config dump | grep default_runtime_name输出必须显示
nvidia。如未显示,请按照前置条件指南操作。 -
如果在使用 NVIDIA 镜像的设备插件时不请求 vGPU,机器上的所有 GPU 可能会在容器内暴露。
-
目前,A100 MIG 仅支持 "none" 和 "mixed" 模式。
-
目前无法 调度带有 "nodeName" 字段的任务;请改用 "nodeSelector"。
-
目前仅支持计算任务;不支持视频编解码处理。
-
我们将
device-plugin环境变量名称从NodeName更改为NODE_NAME,如果你使用镜像版本v2.3.9,可能会遇到device-plugin无法启动的情况,有两种方法可以解决:- 手动执行
kubectl edit daemonset修改device-plugin环境变量从NodeName为NODE_NAME。 - 使用 helm 升级到最新版本,
device-plugin镜像的最新版本是v2.3.10,执行helm upgrade hami hami/hami -n kube-system,它将自动修复。
- 手动执行