### 请提出你的问题 当tp=1,batchsize=2的时候在天数BI-V150(天垓150)上训练的时候汇报显存不够oom,但是在V100上训练的时候相同的参数不会报显存不够,天数和v100芯片的显存都是32G,想请教一下是什么原因导致的,是天数底层算子问题吗? **环境信息如下:** <img width="1068" height="160" alt="Image" src="https://github.com/user-attachments/assets/6cdff6f9-b797-49e4-a5df-5e662764e3fa" /> **参数如下:** <img width="778" height="854" alt="Image" src="https://github.com/user-attachments/assets/9785ca7e-36af-41d8-ab39-3dfc283c3b25" /> **报错信息如下:** <img width="3042" height="1096" alt="Image" src="https://github.com/user-attachments/assets/0381b8a7-4136-4ed3-9d2a-4cb578f10745" /> <img width="2450" height="1442" alt="Image" src="https://github.com/user-attachments/assets/560c4437-3717-4b7b-a1ed-12c04e66d411" />