add layernorm ut

MengqingCao · MengqingCao · commit f688f36ffbdd · 2025-07-10T06:54:59.000Z
Signed-off-by: MengqingCao &lt;cmq0113@163.com&gt;
diff --git a/tests/ut/ops/test_common_fused_moe.py b/tests/ut/ops/test_common_fused_moe.py
@@ -0,0 +1,55 @@
+from unittest.mock import patch
+
+import pytest
+import torch
+from vllm.model_executor.layers.layernorm import RMSNorm
+
+import vllm_ascend.patch.worker.patch_common.patch_utils  # noqa: F401
+
+
+@pytest.fixture
+def dummy_tensor():
+    return torch.randn(4, 8, dtype=torch.float16)
+
+
+def mock_rms_norm(x, weight, eps):
+    return x + 1, None
+
+
+def mock_add_rms_norm(x, residual, weight, eps):
+    return 2 * x, None, 2 * residual
+
+
+@pytest.mark.parametrize("is_310p_return", [True, False])
+@pytest.mark.parametrize("residual",
+                         [None, torch.randn(4, 8, dtype=torch.float32)])
+@patch("torch_npu.npu_rms_norm", side_effect=mock_rms_norm)
+@patch("torch_npu.npu_add_rms_norm", side_effect=mock_add_rms_norm)
+def test_SiluAndMul_forward(mock_add_rmsnorm, mock_rmsnorm, is_310p_return,
+                            residual, dummy_tensor):
+
+    with patch("vllm_ascend.utils.is_310p", return_value=is_310p_return):
+        layer = RMSNorm(hidden_size=32, eps=1e-05)
+        if residual is not None:
+            out_x, out_residual = layer.forward(dummy_tensor, residual)
+
+            if is_310p_return:
+                expected_arg_x = dummy_tensor + residual.to(dummy_tensor.dtype)
+                expected_out_x = expected_arg_x + 1
+                expected_out_residual = expected_arg_x.to(residual.dtype)
+
+                mock_rmsnorm.assert_called_once()
+                assert torch.allclose(out_x, expected_out_x)
+                assert torch.allclose(out_residual, expected_out_residual)
+            else:
+                expected_out_x = 2 * dummy_tensor
+                expected_out_residual = 2 * residual
+                mock_add_rmsnorm.assert_called_once()
+                assert torch.allclose(out_x, expected_out_x)
+                assert torch.allclose(out_residual, expected_out_residual)
+        else:
+            out_x = layer.forward(dummy_tensor, residual)
+            expected_out_x = dummy_tensor + 1
+
+            mock_rmsnorm.assert_called_once()
+            assert torch.allclose(out_x, expected_out_x)
diff --git a/tests/ut/ops/test_layernorm.py b/tests/ut/ops/test_layernorm.py
@@ -0,0 +1,55 @@
+from unittest.mock import patch
+
+import pytest
+import torch
+from vllm.model_executor.layers.layernorm import RMSNorm
+
+import vllm_ascend.patch.worker.patch_common.patch_utils  # noqa: F401
+
+
+@pytest.fixture
+def dummy_tensor():
+    return torch.randn(4, 8, dtype=torch.float16)
+
+
+def mock_rms_norm(x, weight, eps):
+    return x + 1, None
+
+
+def mock_add_rms_norm(x, residual, weight, eps):
+    return 2 * x, None, 2 * residual
+
+
+@pytest.mark.parametrize("is_310p_return", [True, False])
+@pytest.mark.parametrize("residual",
+                         [None, torch.randn(4, 8, dtype=torch.float32)])
+@patch("torch_npu.npu_rms_norm", side_effect=mock_rms_norm)
+@patch("torch_npu.npu_add_rms_norm", side_effect=mock_add_rms_norm)
+def test_SiluAndMul_forward(mock_add_rmsnorm, mock_rmsnorm, is_310p_return,
+                            residual, dummy_tensor):
+
+    with patch("vllm_ascend.utils.is_310p", return_value=is_310p_return):
+        layer = RMSNorm(hidden_size=32, eps=1e-05)
+        if residual is not None:
+            out_x, out_residual = layer.forward(dummy_tensor, residual)
+
+            if is_310p_return:
+                expected_arg_x = dummy_tensor + residual.to(dummy_tensor.dtype)
+                expected_out_x = expected_arg_x + 1
+                expected_out_residual = expected_arg_x.to(residual.dtype)
+
+                mock_rmsnorm.assert_called_once()
+                assert torch.allclose(out_x, expected_out_x)
+                assert torch.allclose(out_residual, expected_out_residual)
+            else:
+                expected_out_x = 2 * dummy_tensor
+                expected_out_residual = 2 * residual
+                mock_add_rmsnorm.assert_called_once()
+                assert torch.allclose(out_x, expected_out_x)
+                assert torch.allclose(out_residual, expected_out_residual)
+        else:
+            out_x = layer.forward(dummy_tensor, residual)
+            expected_out_x = dummy_tensor + 1
+
+            mock_rmsnorm.assert_called_once()
+            assert torch.allclose(out_x, expected_out_x)
diff --git a/tests/ut/ops/test_rotary_embedding.py b/tests/ut/ops/test_rotary_embedding.py
@@ -221,8 +221,13 @@ def _create_layer(self):
 
     @patch("vllm.model_executor.layers.rotary_embedding.current_platform",
            new_callable=PropertyMock)
-    def test_native_rope_deepseek_forward_base(self, mock_current_platform):
+    @patch("vllm_ascend.ops.rotary_embedding.current_platform",
+           new_callable=PropertyMock)
+    def test_native_rope_deepseek_forward_base(self,
+                                               mock_current_platform_ascend,
+                                               mock_current_platform):
         mock_current_platform.device_type = torch.device("cpu")
+        mock_current_platform_ascend.device_type = torch.device("cpu")
         self.layer = self._create_layer()
         with patch("vllm_ascend.ops.rotary_embedding.rope_forward_oot",
                    return_value=(self.query,
@@ -236,9 +241,13 @@ def test_native_rope_deepseek_forward_base(self, mock_current_platform):
     @patch('vllm_ascend.ops.rotary_embedding.rope_forward_oot')
     @patch("vllm.model_executor.layers.rotary_embedding.current_platform",
            new_callable=PropertyMock)
+    @patch("vllm_ascend.ops.rotary_embedding.current_platform",
+           new_callable=PropertyMock)
     def test_native_rope_deepseek_forward_cache_handling(
-            self, mock_current_platform, mock_rope_forward_oot):
+            self, mock_current_platform_ascend, mock_current_platform,
+            mock_rope_forward_oot):
         mock_current_platform.device_type = torch.device("cpu")
+        mock_current_platform_ascend.device_type = torch.device("cpu")
         self.layer = self._create_layer()
         self.layer.max_seq_len = 1024
         # Test cache situation is true
@@ -256,9 +265,13 @@ def test_native_rope_deepseek_forward_cache_handling(
     @patch('vllm_ascend.ops.rotary_embedding.rope_forward_oot')
     @patch("vllm.model_executor.layers.rotary_embedding.current_platform",
            new_callable=PropertyMock)
+    @patch("vllm_ascend.ops.rotary_embedding.current_platform",
+           new_callable=PropertyMock)
     def test_native_rope_deepseek_forward_key_reshaping(
-            self, mock_current_platform, mock_rope_forward_oot):
+            self, mock_current_platform_ascend, mock_current_platform,
+            mock_rope_forward_oot):
         mock_current_platform.device_type = torch.device("cpu")
+        mock_current_platform_ascend.device_type = torch.device("cpu")
         self.layer = self._create_layer()
 
         key = torch.randn(1, 32)
@@ -273,9 +286,13 @@ def test_native_rope_deepseek_forward_key_reshaping(
     @patch('vllm_ascend.ops.rotary_embedding.rope_forward_oot')
     @patch("vllm.model_executor.layers.rotary_embedding.current_platform",
            new_callable=PropertyMock)
+    @patch("vllm_ascend.ops.rotary_embedding.current_platform",
+           new_callable=PropertyMock)
     def test_native_rope_deepseek_forward_non_neox_style(
-            self, mock_current_platform, mock_rope_forward_oot):
+            self, mock_current_platform_ascend, mock_current_platform,
+            mock_rope_forward_oot):
         mock_current_platform.device_type = torch.device("cpu")
+        mock_current_platform_ascend.device_type = torch.device("cpu")
         self.layer = self._create_layer()
 
         mock_rope_forward_oot.return_value = (self.query, self.key)
@@ -288,9 +305,13 @@ def test_native_rope_deepseek_forward_non_neox_style(
 
     @patch("vllm.model_executor.layers.rotary_embedding.current_platform",
            new_callable=PropertyMock)
-    def test_basic_case(self, mock_current_platform):
+    @patch("vllm_ascend.ops.rotary_embedding.current_platform",
+           new_callable=PropertyMock)
+    def test_basic_case(self, mock_current_platform_ascend,
+                        mock_current_platform):
         # Test with standard values
         mock_current_platform.device_type = torch.device("cpu")
+        mock_current_platform_ascend.device_type = torch.device("cpu")
         self.layer = self._create_layer()
         num_rotations = 100
         dim = 512
@@ -310,8 +331,12 @@ def test_basic_case(self, mock_current_platform):
 
     @patch("vllm.model_executor.layers.rotary_embedding.current_platform",
            new_callable=PropertyMock)
-    def test_yarn_get_mscale(self, mock_current_platform):
+    @patch("vllm_ascend.ops.rotary_embedding.current_platform",
+           new_callable=PropertyMock)
+    def test_yarn_get_mscale(self, mock_current_platform_ascend,
+                             mock_current_platform):
         mock_current_platform.device_type = torch.device("cpu")
+        mock_current_platform_ascend.device_type = torch.device("cpu")
         self.layer = self._create_layer()
 
         # test_scale_less_than_or_equal_1
diff --git a/tests/ut/quantization/test_quant_config.py b/tests/ut/quantization/test_quant_config.py
@@ -114,7 +114,7 @@ def test_get_quant_method_for_fused_moe(self):
 
         # Test skipped layer
         with patch.object(self.ascend_config, 'is_layer_skipped_ascend', return_value=True), \
-            patch('vllm_ascend.quantization.quant_config.AscendUnquantizedFusedMoEMethod', return_value=MagicMock()) as mock_ascend_moe:
+            patch('vllm_ascend.quantization.quant_config.AscendDSUnquantizedFusedMoEMethod', return_value=MagicMock()) as mock_ascend_moe:
             method = self.ascend_config.get_quant_method(
                 fused_moe_layer, "moe_layer")
             self.assertIs(method, mock_ascend_moe.return_value)
diff --git a/vllm_ascend/ops/layernorm.py b/vllm_ascend/ops/layernorm.py
@@ -20,8 +20,6 @@
 import torch
 from vllm.model_executor.layers.layernorm import RMSNorm
 
-from vllm_ascend.utils import is_310p
-
 
 @RMSNorm.register_oot
 class AscendRMSNorm(RMSNorm):
@@ -33,6 +31,8 @@ def forward_oot(
     ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
         import torch_npu
 
+        from vllm_ascend.utils import is_310p
+
         if residual is not None:
             if is_310p():
                 orig_dtype = residual.dtype
diff --git a/vllm_ascend/ops/rotary_embedding.py b/vllm_ascend/ops/rotary_embedding.py
@@ -21,6 +21,7 @@
 import torch
 from vllm.model_executor.layers.rotary_embedding import (
     DeepseekScalingRotaryEmbedding, RotaryEmbedding)
+from vllm.platforms import current_platform
 
 from vllm_ascend.ascend_config import get_ascend_config
 from vllm_ascend.utils import enable_custom_op, is_310p
@@ -141,7 +142,7 @@ def __init__(
         self.max_seq_len = max_position_embeddings
         self._set_cos_sin_cache(max_position_embeddings,
                                 dtype=dtype,
-                                device="npu")
+                                device=current_platform.device_type)
 
     def _yarn_get_mscale(self, scale: float = 1, mscale: float = 1) -> float:
         if scale <= 1: