-
Notifications
You must be signed in to change notification settings - Fork 114
Open
Description
我在 RTX 4090 工作站上运行 banchmark 程序,取得了异常高的总线带宽数据:
Pytorch version : 1.14.0a0+44dac51
CUDA version : 12.0
GPU : NVIDIA GeForce RTX 4090
Matrix Multiplication:
n=128 n=512 n=2048 n=8192
torch.float32 1.048 29.653 82.788 86.676
torch.float16 1.304 46.890 167.112 158.596
Memory Bandwidth:
65536 262144 1048576 4194304
TFLOPS 0.025 0.099 0.324 0.484
GB/s 196.343 792.595 2590.594 3868.374
可以看到显存带宽为 3868 GB/s,而我查到的 4090 理论显存带宽为 1000 GB/s 左右。
而我在 A800 服务器上运行 banchmark 程序的结果是正常的:
Pytorch version : 2.0.0a0+1767026
CUDA version : 12.1
GPU : NVIDIA A800 80GB PCIe
Matrix Multiplication:
n=128 n=512 n=2048 n=8192
torch.float32 0.464 25.947 82.386 105.973
torch.float16 0.343 31.456 192.540 215.333
Memory Bandwidth:
65536 262144 1048576 4194304
TFLOPS 0.009 0.036 0.143 0.216
GB/s 72.026 288.159 1143.973 1727.486
显存带宽 1727 GB/s 低于理论上限 1935 GB/s
这导致 4090 的显存带宽远高于 A800,在我的实际训练中 4090也取得了更快的训练速度。
请问 4090 这样高的带宽是正常的吗?如果不正常的话有什么可能的原因?
Metadata
Metadata
Assignees
Labels
No labels