Skip to content

单显卡推理引擎并发性能问题 #74043

@pearl88

Description

@pearl88

bug描述 Describe the Bug

使用单显卡 OCR_v4 模型进行推理时 ,模型推理的耗时随着并发数增加而显著增加(单机器多显卡正常),超出可接受范围。

在 PaddleOCR 中的提问记录: PaddlePaddle/PaddleOCR#15987

测试场景:

  • 显卡型号:NVIDIA GeForce RTX 4090。
  • 初始化 TextSystem ,执行检测、识别。
  • 依次创建多个实例,同时进行推理。
  • 运行容器:ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.0.0-gpu-cuda12.6-cudnn9.5-trt10.5
  • OCR 版本:paddleocr 3.0
  • 推理引擎:onnxruntime 1.19.0

官方 OCR_v5 模型(ONNX 格式):

OCR 服务实例数量 检测前处理耗时 检测推理耗时 检测后处理 推理总计耗时
1 13 15 13 381
2 13 17 13 395
3 14 25 13 450
4 14 30 13 508

官方 OCR_v4 模型(ONNX 格式):

OCR 服务实例数量 检测前处理耗时 检测推理耗时 检测后处理 推理总计耗时
1 14 17 14 272
2 14 25 14 353
3 14 38 14 501
4 14 52 14 600

官方 OCR_v4 模型 torch 推理(pth 格式):

OCR 服务实例数量 检测耗时 识别耗时
1 23.27 193.16
2 24.19 217.82
3 24.86 249.25
4 26.74 275.65
5 27.89 337.11

其他补充信息 Additional Supplementary Information

No response

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions