Skip to content

[Question]: [天数芯片] 同样 32 G 显存,tp=1、batch_size=2 时 OOM,V100 正常 #11088

@kai2321

Description

@kai2321

请提出你的问题

当tp=1,batchsize=2的时候在天数BI-V150(天垓150)上训练的时候汇报显存不够oom,但是在V100上训练的时候相同的参数不会报显存不够,天数和v100芯片的显存都是32G,想请教一下是什么原因导致的,是天数底层算子问题吗?

环境信息如下:

Image

参数如下:

Image

报错信息如下:

Image Image

Metadata

Metadata

Assignees

Labels

questionFurther information is requested

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions