我这边直接在npu 256卡上跑 test_sft_trainer_235B.py 没有复现2000+的tokens/s 只有600 tokens/s,可以帮看下原因吗?下面是打出来的环境变量 <img width="491" height="232" alt="Image" src="https://github.com/user-attachments/assets/5802442f-2894-41a6-aca1-8cf0664b7c61" />