Skip to content

Commit 32b80b5

Browse files
committed
update npu pipline list
1 parent baddf1a commit 32b80b5

File tree

2 files changed

+229
-13
lines changed

2 files changed

+229
-13
lines changed

docs/support_list/pipelines_list_npu.md

+228-12
Original file line numberDiff line numberDiff line change
@@ -68,11 +68,11 @@ comments: true
6868
</td>
6969
</tr>
7070
<tr>
71-
<td rowspan = 2>通用OCR</td>
71+
<td rowspan = 5>通用OCR</td>
7272
<td>文本检测</td>
73-
<td rowspan = 2><a href="https://aistudio.baidu.com/community/app/91660/webUI?source=appMineRecent">在线体验</a></td>
74-
<td rowspan = 2>OCR(光学字符识别,Optical Character Recognition)是一种将图像中的文字转换为可编辑文本的技术。它广泛应用于文档数字化、信息提取和数据处理等领域。OCR 可以识别印刷文本、手写文本,甚至某些类型的字体和符号。 通用 OCR 产线用于解决文字识别任务,提取图片中的文字信息以文本形式输出,PP-OCRv4 是一个端到端 OCR 串联系统,可实现 CPU 上毫秒级的文本内容精准预测,在通用场景上达到开源SOTA。基于该项目,产学研界多方开发者已快速落地多个 OCR 应用,使用场景覆盖通用、制造、金融、交通等各个领域。</td>
75-
<td rowspan = 2>
73+
<td rowspan = 5><a href="https://aistudio.baidu.com/community/app/91660/webUI?source=appMineRecent">在线体验</a></td>
74+
<td rowspan = 5>OCR(光学字符识别,Optical Character Recognition)是一种将图像中的文字转换为可编辑文本的技术。它广泛应用于文档数字化、信息提取和数据处理等领域。OCR 可以识别印刷文本、手写文本,甚至某些类型的字体和符号。 通用 OCR 产线用于解决文字识别任务,提取图片中的文字信息以文本形式输出,PP-OCRv4 是一个端到端 OCR 串联系统,可实现 CPU 上毫秒级的文本内容精准预测,在通用场景上达到开源SOTA。基于该项目,产学研界多方开发者已快速落地多个 OCR 应用,使用场景覆盖通用、制造、金融、交通等各个领域。</td>
75+
<td rowspan = 5>
7676
<ul>
7777
<li>智能安防中车牌号</li>
7878
<li>门牌号等信息的识别</li>
@@ -85,27 +85,41 @@ comments: true
8585
<td>文本识别</td>
8686
</tr>
8787
<tr>
88-
<td rowspan = 4>通用表格识别</td>
89-
<td>版面区域检测</td>
90-
<td rowspan = 4><a href="https://aistudio.baidu.com/community/app/91661/webUI">在线体验</a></td>
91-
<td rowspan = 4>表格识别是一种自动从文档或图像中识别和提取表格内容及其结构的技术,广泛应用于数据录入、信息检索和文档分析等领域。通过使用计算机视觉和机器学习算法,表格识别能够将复杂的表格信息转换为可编辑的格式,方便用户进一步处理和分析数据。</td>
92-
<td rowspan = 4>
88+
<td>文档图像方向分类</td>
89+
</tr>
90+
<tr>
91+
<td>文本图像矫正</td>
92+
</tr>
93+
<tr>
94+
<td>文本行方向分类</td>
95+
</tr>
96+
<td rowspan = 6>通用表格识别</td>
97+
<td>表格结构识别</td>
98+
<td rowspan = 6><a href="https://aistudio.baidu.com/community/app/91661/webUI">在线体验</a></td>
99+
<td rowspan = 6>表格识别是一种自动从文档或图像中识别和提取表格内容及其结构的技术,广泛应用于数据录入、信息检索和文档分析等领域。通过使用计算机视觉和机器学习算法,表格识别能够将复杂的表格信息转换为可编辑的格式,方便用户进一步处理和分析数据。</td>
100+
<td rowspan = 6>
93101
<ul>
94102
<li>银行账单的处理</li>
95103
<li>医疗报告中各项指标的识别和提取</li>
96104
<li>合同中表格信息的提取</li>
97105
</ul>
98106
</td>
99107
</tr>
100-
<tr>
101-
<td>表格结构识别</td>
102-
</tr>
103108
<tr>
104109
<td>文本检测</td>
105110
</tr>
106111
<tr>
107112
<td>文本识别</td>
108113
</tr>
114+
<tr>
115+
<td>版面区域检测</td>
116+
</tr>
117+
<tr>
118+
<td>文档图像方向分类</td>
119+
</tr>
120+
<tr>
121+
<td>文本图像矫正</td>
122+
</tr>
109123
<tr>
110124
<td>时序预测</td>
111125
<td>时序预测</td>
@@ -156,7 +170,209 @@ comments: true
156170
</ul>
157171
</td>
158172
</tr>
173+
<tr>
174+
<td>图像多标签分类</td>
175+
<td>图像多标签分类</td>
176+
<td><a href="https://aistudio.baidu.com/community/app/387974/webUI?source=appCenter">在线体验</a></td>
177+
<td>图像多标签分类是一种将一张图像同时分配到多个相关类别的技术,广泛应用于图像标注、内容推荐和社交媒体分析等领域。它能够识别图像中存在的多个物体或特征,例如一张图片中同时包含“狗”和“户外”这两个标签。通过使用深度学习模型,图像多标签分类能够自动提取图像特征并进行准确分类,以便为用户提供更加全面的信息。这项技术在智能搜索引擎和自动内容生成等应用中具有重要意义。</td>
178+
<td>
179+
<ul>
180+
<li>医学影像诊断</li>
181+
<li>复杂场景识别</li>
182+
<li>多目标监控</li>
183+
<li>商品属性识别</li>
184+
<li>生态环境监测</li>
185+
<li>安全监控</li>
186+
<li>灾害预警</li>
187+
</ul>
188+
</td>
189+
</tr>
190+
<tr>
191+
<td>小目标检测</td>
192+
<td>小目标检测</td>
193+
<td><a href="https://aistudio.baidu.com/community/app/387975/webUI?source=appCenter">在线体验</a></td>
194+
<td>小目标检测是一种专门识别图像中体积较小物体的技术,广泛应用于监控、无人驾驶和卫星图像分析等领域。它能够从复杂场景中准确找到并分类像行人、交通标志或小动物等小尺寸物体。通过使用深度学习算法和优化的卷积神经网络,小目标检测可以有效提升对小物体的识别能力,确保在实际应用中不遗漏重要信息。这项技术在提高安全性和自动化水平方面发挥着重要作用。</td>
195+
<td>
196+
<ul>
197+
<li>无人驾驶汽车中的行人检测</li>
198+
<li>卫星图像中的小型建筑物识别</li>
199+
<li>智能交通系统中的小型交通标志检测</li>
200+
<li>安防监控中的小型入侵物体识别</li>
201+
<li>工业检测中的微小瑕疵检测</li>
202+
<li>无人机图像中的小型动物监测</li>
203+
</ul>
204+
</td>
205+
</tr>
206+
<tr>
207+
<td>图像异常检测</td>
208+
<td>图像异常检测</td>
209+
<td>暂无</td>
210+
<td>图像异常检测是一种通过分析图像中的内容,来识别与众不同或不符合正常模式的图像处理技术。它广泛应用于工业质量检测、医疗影像分析和安全监控等领域。通过使用机器学习和深度学习算法,图像异常检测能够自动识别出图像中潜在的缺陷、异常或异常行为,从而帮助我们及时发现问题并采取相应措施。图像异常检测系统被设计用于自动检测和标记图像中的异常情况,以提高工作效率和准确性。</td>
211+
<td>
212+
<ul>
213+
<li>工业质量控制</li>
214+
<li>医疗影像分析</li>
215+
<li>监控视频异常检测</li>
216+
<li>交通监控中的违规行为识别</li>
217+
<li>自动驾驶中的障碍物检测</li>
218+
<li>农业病虫害监测</li>
219+
<li>环境监测中的污染物识别</li>
220+
</ul></td>
221+
</tr>
222+
<tr>
223+
<td rowspan = 10>通用版面解析</td>
224+
<td>版面区域检测</td>
225+
<td rowspan = 10>暂无</td>
226+
<td rowspan = 10>版面解析是一种从文档图像中提取结构化信息的技术,主要用于将复杂的文档版面转换为机器可读的数据格式。这项技术在文档管理、信息提取和数据数字化等领域具有广泛的应用。版面解析通过结合光学字符识别(OCR)、图像处理和机器学习算法,能够识别和提取文档中的文本块、标题、段落、图片、表格以及其他版面元素。此过程通常包括版面分析、元素分析和数据格式化三个主要步骤,最终生成结构化的文档数据,提升数据处理的效率和准确性。</td>
227+
<td rowspan="10">
228+
<ul>
229+
<li>金融与法律文档分析</li>
230+
<li>历史文献和档案数字化</li>
231+
<li>自动化表单填写</li>
232+
<li>页面结构解析</li>
233+
</ul>
234+
</td>
235+
</tr>
236+
<tr>
237+
<td>版面区域检测模块</td>
238+
</tr>
239+
<tr>
240+
<td>文本检测模块</td>
241+
</tr>
242+
<tr>
243+
<td>文本识别模块</td>
244+
</tr>
245+
<tr>
246+
<td>文档图像方向分类模块</td>
247+
</tr>
248+
<tr>
249+
<td>文本图像矫正模块</td>
250+
</tr>
251+
<tr>
252+
<td>表格结构识别模块</td>
253+
</tr>
254+
<tr>
255+
<td>文本行方向分类模块</td>
256+
</tr>
257+
<tr>
258+
<td>公式识别模块</td>
259+
</tr>
260+
<tr>
261+
<td>印章文本检测模块</td>
262+
</tr>
263+
<tr>
264+
<td rowspan = 4>公式识别</td>
265+
<td>公式识别模块</td>
266+
<td rowspan = 4><a href="https://aistudio.baidu.com/community/app/387976/webUI?source=appCenter">在线体验</a></td>
267+
<td rowspan = 4>公式识别是一种自动从文档或图像中识别和提取LaTeX公式内容及其结构的技术,广泛应用于数学、物理、计算机科学等领域的文档编辑和数据分析。通过使用计算机视觉和机器学习算法,公式识别能够将复杂的数学公式信息转换为可编辑的LaTeX格式,方便用户进一步处理和分析数据。</td>
268+
<td rowspan = 4>
269+
<ul>
270+
<li>文档数字化与检索</li>
271+
<li>公式搜索引擎</li>
272+
<li>公式编辑器</li>
273+
<li>自动化排版</li>
274+
</ul>
275+
</td>
276+
</tr>
277+
<tr>
278+
<td>版面区域检测模块</td>
279+
</tr>
280+
<tr>
281+
<td>文档图像方向分类模块</td>
282+
</tr>
283+
<tr>
284+
<td>文本图像矫正模块</td>
285+
</tr>
286+
<tr>
287+
<td rowspan = 5>印章文本识别</td>
288+
<td>印章文本检测</td>
289+
<td rowspan = 5><a href="https://aistudio.baidu.com/community/app/387977/webUI?source=appCenter">在线体验</a></td>
290+
<td rowspan = 5>印章文本识别是一种自动从文档或图像中提取和识别印章内容的技术,印章文本的识别是文档处理的一部分,在很多场景都有用途,例如合同比对,出入库审核以及发票报销审核等场景。</td>
291+
<td rowspan = 5>
292+
<ul>
293+
<li>合同和协议验证</li>
294+
<li>支票处理</li>
295+
<li>贷款审批</li>
296+
<li>法律文书管理</li>
297+
</ul>
298+
</td>
299+
</tr>
300+
<tr>
301+
<td>文本识别</td>
302+
</tr>
303+
<tr>
304+
<td>版面区域检测</td>
305+
</tr>
306+
<tr>
307+
<td>文档图像方向分类</td>
308+
</tr>
309+
<tr>
310+
<td>文本图像矫正</td>
311+
</tr>
312+
<tr>
313+
<tr>
314+
<td rowspan = 2>通用图像识别</td>
315+
<td>主体检测</td>
316+
<td rowspan = 2>暂无</td>
317+
<td rowspan = 2>通用图像识别产线旨在解决开放域目标定位及识别问题,通用图像识别产线能够在不同的环境和条件下有效识别和区分各种目标物体,从而广泛应用于自动驾驶、智能安防、医疗影像分析以及工业自动化等多个领域。</td>
318+
<td rowspan = 2>
319+
<ul>
320+
<li>自动化身份核验</li>
321+
<li>无人零售</li>
322+
<li>自动驾驶</li>
323+
</ul>
324+
</td>
325+
</tr>
326+
<tr>
327+
<td>图像特征</td>
328+
</tr>
329+
<tr>
330+
<td rowspan = 2>行人属性识别</td>
331+
<td>行人检测</td>
332+
<td rowspan = 2><a href="https://aistudio.baidu.com/community/app/387978/webUI?source=appCenter">在线体验</a></td>
333+
<td rowspan = 2>行人属性识别是计算机视觉系统中的关键功能,用于在图像或视频中定位并标记行人的特定特征,如性别、年龄、衣物颜色和款式等。</td>
334+
<td rowspan = 2>
335+
<ul>
336+
<li>智慧城市</li>
337+
<li>安防监控</li>
338+
</ul>
339+
</td>
340+
</tr>
341+
<tr>
342+
<td>行人属性识别</td>
343+
</tr>
344+
<tr>
345+
<td rowspan = 2>车辆属性识别</td>
346+
<td>车辆检测</td>
347+
<td rowspan = 2><a href="https://aistudio.baidu.com/community/app/387979/webUI?source=appCenter">在线体验</a></td>
348+
<td rowspan = 2>车辆属性识别是计算机视觉系统中的重要组成部分,其主要任务是在图像或视频中定位并标记出车辆的特定属性,如车辆类型、颜色、车牌号等。该任务不仅要求准确检测出车辆,还需识别每辆车的详细属性信息。</td>
349+
<td rowspan = 2>
350+
<ul>
351+
<li>智能停车</li>
352+
<li>交通管理</li>
353+
<li>自动驾驶</li>
354+
</ul>
355+
</td>
356+
</tr>
357+
<tr>
358+
<td>车辆属性识别</td>
359+
</tr>
360+
<tr>
361+
<td rowspan="2">文档图像预处理</td>
362+
<td>文档图像方向分类</td>
363+
<td rowspan="2">暂无</td>
364+
<td rowspan="2">文档图像预处理是文档分析与识别中的关键步骤,旨在通过一系列技术手段对文档图像进行优化,以提高后续处理的准确性和效率。文档图像预处理包括方向分类、文本矫正、去噪、二值化等操作,能够有效改善图像质量,纠正文档方向,并去除干扰因素。该技术广泛应用于文档扫描、OCR文字识别、电子文档生成等领域。</td>
365+
<td rowspan="2">
366+
<ul>
367+
<li>文档扫描仪中的自动方向校正</li>
368+
<li>OCR系统中的文本图像优化</li>
369+
<li>历史文档数字化中的图像修复</li>
370+
</ul>
371+
</td>
372+
</tr>
159373
</table>
160374

375+
161376
## 2、特色产线
377+
162378
暂不支持,敬请期待!

paddlex/inference/models/common/static_infer.py

+1-1
Original file line numberDiff line numberDiff line change
@@ -373,7 +373,7 @@ def _create(
373373
logging.debug("`device_id` has been set to None")
374374

375375
if (
376-
self._option.device_type in ("gpu", "dcu")
376+
self._option.device_type in ("gpu", "dcu", "npu")
377377
and self._option.device_id is None
378378
):
379379
self._option.device_id = 0

0 commit comments

Comments
 (0)