实验 3: 使用 HAMi 进行 GPU 分区
本实验在 实验 1 的基础上继续。你有一块拥有 15360 MiB 显存的物理 Tesla T4。在本实验中,你将在这一张卡上运行多个 Pod,每个 Pod 都有独立的显存和算力上限,并验证隔离的真实性:当一个 Pod 尝试分配超出其配额的显存时,会触发 CUDA OOM,而相邻 Pod 不受影响继续运行。
本实验中的每条命令和输出均来自使用实验 1 搭建的实际集群(HAMi v2.9.0、GPU Operator v25.3.0、Kubernetes v1.34)。
你将学到什么
- HAMi 为 Kubernetes 添加的 vGPU 资源类型
- 在一张物理 GPU 上运行多个 Pod
- HAMi 如何在容器内部强制执行显存上限
- 通过 OOM 测试验证显存隔离
- 使用
gpucores限制算力及两种利用率策略 - 在哪里查看 HAMi 调度器的决策