deepspeedai · tjruwase · Jul 16, 2025 · Feb 28, 2025
@@ -13,7 +13,7 @@
         from .fused_rmsnorm import RMSNorm
     else:
         from .rmsnorm import RMSNorm
-    from torch.nn import LayerNorm
+    from .layernorm import SPLayerNorm as LayerNorm
 
 from .distributed import DistributedDataParallel
 from .bert_model import BertModel

@@ -0,0 +1,10 @@
+import torch
+
+class SPLayerNorm(torch.nn.LayerNorm):
+    def __init__(self, normalized_shape, eps: float = 1e-5, sequence_parallel=False):
+        super(SPLayerNorm, self).__init__(normalized_shape, eps)
+        self.sequence_parallel = sequence_parallel
+        setattr(self.weight, 'sequence_parallel', self.sequence_parallel)
+
+    def forward(self, x):
+        return super(SPLayerNorm, self).forward(x)