vllm-project
diff --git a/‎examples/offline_inference_npu_v0.py
Lines changed: 0 additions & 44 deletions b/‎examples/offline_inference_npu_v0.py
Lines changed: 0 additions & 44 deletions
diff --git a/‎tests/e2e/singlecard/test_guided_decoding.py
Lines changed: 1 addition & 13 deletions b/‎tests/e2e/singlecard/test_guided_decoding.py
Lines changed: 1 addition & 13 deletions
diff --git a/‎tests/ut/test_platform.py
Lines changed: 0 additions & 39 deletions b/‎tests/ut/test_platform.py
Lines changed: 0 additions & 39 deletions
@@ -30,10 +30,7 @@
 os.environ["PYTORCH_NPU_ALLOC_CONF"] = "max_split_size_mb:256"
 MODEL_NAME = "Qwen/Qwen2.5-0.5B-Instruct"
 
-GuidedDecodingBackendV0 = ["outlines", "lm-format-enforcer", "xgrammar"]
-GuidedDecodingBackendV1 = ["xgrammar", "guidance"]
-GuidedDecodingBackend = list(
-    set(GuidedDecodingBackendV0 + GuidedDecodingBackendV1))
+GuidedDecodingBackend = ["xgrammar", "guidance"]
 
 
 @pytest.fixture(scope="module")
@@ -84,16 +81,9 @@ def sample_json_schema():
     }
 
 
-def check_backend(guided_decoding_backend: str):
-    if guided_decoding_backend not in GuidedDecodingBackendV1:
-        pytest.skip(f"{guided_decoding_backend} does not support v1, skip it.")
-
-
 @pytest.mark.parametrize("guided_decoding_backend", GuidedDecodingBackend)
 def test_guided_json_completion(guided_decoding_backend: str,
                                 sample_json_schema):
-    check_backend(guided_decoding_backend)
-
     sampling_params = SamplingParams(
         temperature=1.0,
         max_tokens=500,
@@ -130,8 +120,6 @@ def test_guided_json_completion(guided_decoding_backend: str,
 
 @pytest.mark.parametrize("guided_decoding_backend", GuidedDecodingBackend)
 def test_guided_regex(guided_decoding_backend: str, sample_regex):
-    check_backend(guided_decoding_backend)
-
     sampling_params = SamplingParams(
         temperature=0.8,
         top_p=0.95,
 
@@ -481,45 +481,6 @@ def test_get_attn_backend_cls_use_v1_only(self, mock_get_ascend_config):
             result,
             "vllm_ascend.attention.attention_v1.AscendAttentionBackend")
 
-    @patch('vllm_ascend.platform.get_ascend_config')
-    def test_get_attn_backend_cls_use_mla_only(self, mock_get_ascend_config):
-        mock_config = MagicMock()
-        mock_config.torchair_graph_config.enabled = False
-
-        mock_get_ascend_config.return_value = mock_config
-
-        result = self.platform.get_attn_backend_cls(
-            selected_backend="ascend",
-            head_size=64,
-            dtype="float16",
-            kv_cache_dtype="float16",
-            block_size=64,
-            use_v1=False,
-            use_mla=True,
-        )
-        self.assertEqual(
-            result,
-            "vllm_ascend.attention.attention.AscendMLAAttentionBackend")
-
-    @patch('vllm_ascend.platform.get_ascend_config')
-    def test_get_attn_backend_cls_default_case(self, mock_get_ascend_config):
-        mock_config = MagicMock()
-        mock_config.torchair_graph_config.enabled = False
-
-        mock_get_ascend_config.return_value = mock_config
-
-        result = self.platform.get_attn_backend_cls(
-            selected_backend="ascend",
-            head_size=64,
-            dtype="float16",
-            kv_cache_dtype="float16",
-            block_size=64,
-            use_v1=False,
-            use_mla=False,
-        )
-        self.assertEqual(
-            result, "vllm_ascend.attention.attention.AscendAttentionBackend")
-
     def test_get_punica_wrapper(self):
         result = self.platform.get_punica_wrapper()
         self.assertEqual(