LLaMA2 70B H100 性能問題 #5180
Replies: 4 comments 31 replies
-
显存似乎还有空间,是否试过提高batch size有什么结果。其次,是否确认了flash attention是被正常使用的。 |
Beta Was this translation helpful? Give feedback.
-
感谢您,我会尽快查看和解决这个问题 |
Beta Was this translation helpful? Give feedback.
-
您好,我在訓練 LLaMA2 70B 的時候,存檔和讀檔有遇到 OOM 的問題,因此想另外請教一下 配置:
狀況:
self.booster.save_model(
self.boosted_model,
os.path.join(checkpoint_path, _CKPT_MODEL_DIR),
shard=True,
size_per_shard=1024,
use_safetensors=True
)
self.booster.save_optimizer(
self.optimizers[0],
os.path.join(checkpoint_path, _CKPT_OPTIMIZER_DIR),
shard=True,
size_per_shard=1024
)
self.booster.load_model(self.boosted_model, os.path.join(checkpoint_path, _CKPT_MODEL_DIR))
self.booster.load_optimizer(self.optimizers[0], os.path.join(checkpoint_path, _CKPT_OPTIMIZER_DIR)) |
Beta Was this translation helpful? Give feedback.
-
![]() ![]() Hi,看起来Hybrid ParallelPlugin存档也没有影响显存的使用。
|
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
我用了 4 節點共 32 卡的 H100 機器測試了 LLaMA2 70B 的性能,但 TFLOPS 只有 170 左右,這似乎和 A100 差不多,我不太確定這是不是合理的一個數值,如果不是,想請教一下可能的問題點。
平行化參數如下:
另外,如果我要在 9 個 8 卡 H100 節點訓練 LLaMA2 70B,請問會建議用什麼樣的平行化配置?
Beta Was this translation helpful? Give feedback.
All reactions