ddp训练时，一次forward，两次backbward时，为什么第1次backbward时获得的梯度是多卡的平均梯度，第2次backbward时获得的梯度没做多卡的平均操作 #9802

gftd · 2023-02-20T06:03:36Z

gftd
Feb 20, 2023

loss.backward(retain_graph=True)
grad_0 = {}
for name, param in runner.model.module.named_parameters():
grad_0[name]=param.grad.clone().detach()

runner.optimizer.zero_grad()

loss.backward()
grad_1 = {}
for name, param in runner.model.module.named_parameters():
grad_1[name]=param.grad.clone().detach()

grad_0 中的梯度是所有卡上梯度的平均值，grad_1 中的梯度不会做多卡的平均。

gftd · 2023-02-20T07:10:55Z

如果我想要grad_1中的梯度是多卡的平均，怎么改比较合理一点呢？

0 replies