Skip to content

我想问下Device_utilization_desc_of_container指标的生成机制时怎样的;我一个挂载vgpu的容器内我可以使用nvidia-smi获取到gpu使用率但是Device_utilization_desc_of_container却始终是0 #49

@lipeng8

Description

@lipeng8

环境说明:
volcano-vgpu-device-plugin为最新版本
k8s为v1.24.0
情况说明:
我目前有俩个容器都部署在一个k8s节点且均挂载了vgpu
容器A: 提供问答服务 只有问答时才会使用gpu
容器B: 为计算服务 持续占用gpu

监控指标上
容器A:在持续一分钟的问答可以使用nvidia-smi看到明显的gpu波动

Image
但是Device_utilization_desc_of_container在这一分钟内始终是0

Image
容器B: 始终占用gpu

Image
但是容器也出现一个问题 当vgpu使用超限后 居然返回了一个看起来十分不像百分比的数据

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions