跳转到文档内容
版本:下一个

Grafana Dashboard

HAMi 提供预构建的 Grafana Dashboard,用于可视化 HAMi 设备插件导出的 GPU 分配、显存使用和每 Pod 利用率指标。

导入 Dashboard

  1. 打开 Grafana 实例,进入 Dashboards > Import
  2. 下载 Dashboard 模板:
  3. 上传 JSON 文件或将内容粘贴到导入对话框中。
  4. 选择 Prometheus 数据源,点击 Import

Dashboard 面板

Dashboard 包含以下面板:

  • 每 Pod 的 GPU 显存分配
  • 每 Pod 的 GPU 核心利用率
  • 节点级 GPU 资源可用量
  • 设备插件健康状态

Prometheus 采集配置

每个节点上的 hami-device-plugin Pod 在端口 31992(可通过 devicePlugin.monitorPort 配置)上暴露指标。添加采集任务:

scrape_configs:
- job_name: hami-device-plugin
static_configs:
- targets:
- <node-ip>:31992

对于 Prometheus Operator,创建一个 ServiceMonitor,指向 hami-device-plugin 服务的 31992 端口。

关键指标:

指标说明
Device_memory_desc_of_container分配给容器的虚拟 GPU 显存
Device_utilization_desc_of_container每容器的 GPU 算力利用率
Device_memory_limit_of_container为容器设置的显存限制

前置条件

  • 已安装 Prometheus 并采集 HAMi 设备插件指标端点。
  • HAMi 设备插件正在运行并在配置端口上暴露指标。

有关启用指标采集的详细信息,请参见实时 GPU 用量实时设备用量

CNCFHAMi 是 CNCF Sandbox 项目