单显卡推理引擎并发性能问题

### bug描述 Describe the Bug

使用单显卡  OCR_v4 模型进行推理时 ，模型推理的耗时随着并发数增加而显著增加（单机器多显卡正常），超出可接受范围。

在 PaddleOCR 中的提问记录：  https://github.com/PaddlePaddle/PaddleOCR/discussions/15987

测试场景：
- 显卡型号：NVIDIA GeForce RTX 4090。
- 初始化 TextSystem ，执行检测、识别。
- 依次创建多个实例，同时进行推理。
- 运行容器：ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.0.0-gpu-cuda12.6-cudnn9.5-trt10.5
- OCR 版本：paddleocr 3.0
- 推理引擎：onnxruntime 1.19.0


官方 OCR_v5 模型（ONNX 格式）：
OCR 服务实例数量 | 检测前处理耗时 | 检测推理耗时 | 检测后处理 | 推理总计耗时
-- | -- | -- | -- | --
1 | 13 | 15 | 13 | 381
2 | 13 | 17 | 13 | 395
3 | 14 | 25 | 13 | 450
4 | 14 | 30 | 13 | 508

官方 OCR_v4 模型（ONNX 格式）：
OCR 服务实例数量 | 检测前处理耗时 | 检测推理耗时 | 检测后处理 | 推理总计耗时
-- | -- | -- | -- | --
1 | 14 | 17 | 14 | 272
2 | 14 | 25 | 14 | 353
3 | 14 | 38 | 14 | 501
4 | 14 | 52 | 14 | 600

官方 OCR_v4 模型 torch 推理（pth 格式）：
OCR 服务实例数量 | 检测耗时 | 识别耗时
-- | -- | --
1 | 23.27 | 193.16
2 | 24.19 | 217.82
3 | 24.86 | 249.25
4 | 26.74 | 275.65
5 | 27.89 | 337.11


### 其他补充信息 Additional Supplementary Information

_No response_

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

单显卡推理引擎并发性能问题 #74043

bug描述 Describe the Bug

其他补充信息 Additional Supplementary Information

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

OCR 服务实例数量	检测耗时	识别耗时
1	23.27	193.16
2	24.19	217.82
3	24.86	249.25
4	26.74	275.65
5	27.89	337.11

单显卡推理引擎并发性能问题 #74043

Description

bug描述 Describe the Bug

其他补充信息 Additional Supplementary Information

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions