[0.9.1][Config] Add extra checking to torchair_graph_config. (#1675)

whx-sjtu · web-flow · commit 9e46a00cd587 · 2025-07-09T18:12:44.000+08:00
This PR adds validation checking to torchair_graph_config for better
reliability.

Signed-off-by: whx-sjtu &lt;2952154980@qq.com&gt;
diff --git a/tests/singlecard/test_ascend_config.py b/tests/singlecard/test_ascend_config.py
@@ -54,11 +54,12 @@ def test_run_with_ascend_config():
             # torchair graph only works with deepseek. The e2e test should be added
             # in multicard test with deepseek models.
             "enabled": False,
-            "use_cached_graph": True,
-            "graph_batch_sizes": [1, 2, 4, 8],
+            "use_cached_graph": False,
+            "graph_batch_sizes": [],
             "graph_batch_sizes_init": False,
-            "enable_multistream_moe": True,
-            "enable_multistream_mla": True,
+            "enable_multistream_moe": False,
+            "enable_multistream_mla": False,
+            "enable_view_optimize": False,
         },
         "ascend_scheduler_config": {
             "enabled": True,
@@ -73,13 +74,12 @@ def test_run_with_ascend_config():
         ascend_config = get_ascend_config()
 
         assert not ascend_config.torchair_graph_config.enabled
-        assert ascend_config.torchair_graph_config.use_cached_graph
-        assert ascend_config.torchair_graph_config.graph_batch_sizes == [
-            1, 2, 4, 8
-        ]
+        assert not ascend_config.torchair_graph_config.use_cached_graph
+        assert ascend_config.torchair_graph_config.graph_batch_sizes == []
         assert not ascend_config.torchair_graph_config.graph_batch_sizes_init
-        assert ascend_config.torchair_graph_config.enable_multistream_mla
-        assert ascend_config.torchair_graph_config.enable_multistream_moe
+        assert not ascend_config.torchair_graph_config.enable_multistream_mla
+        assert not ascend_config.torchair_graph_config.enable_multistream_moe
+        assert not ascend_config.torchair_graph_config.enable_view_optimize
         assert ascend_config.ascend_scheduler_config.enabled
         assert ascend_config.ascend_scheduler_config.enable_chunked_prefill
 
@@ -142,6 +142,58 @@ def test_ascend_config_load_error():
                         additional_config=input_additional_config_fake_3):
             pass
 
+    # use_cached_graph should not be enabled without torchair graph mode
+    with pytest.raises(RuntimeError):
+        input_additional_config_fake_4 = {
+            "torchair_graph_config": {
+                "enabled": False,
+                "use_cached_graph": True,
+            },
+        }
+        with VllmRunner("facebook/opt-125m",
+                        enforce_eager=True,
+                        additional_config=input_additional_config_fake_4):
+            pass
+
+    # graph_batch_sizes_init should not be enabled without torchair graph mode
+    with pytest.raises(RuntimeError):
+        input_additional_config_fake_5 = {
+            "torchair_graph_config": {
+                "enabled": False,
+                "graph_batch_sizes_init": True,
+            },
+        }
+        with VllmRunner("facebook/opt-125m",
+                        enforce_eager=True,
+                        additional_config=input_additional_config_fake_5):
+            pass
+
+    # enable_multistream_mla should not be enabled without torchair graph mode
+    with pytest.raises(RuntimeError):
+        input_additional_config_fake_6 = {
+            "torchair_graph_config": {
+                "enabled": False,
+                "enable_multistream_mla": True,
+            },
+        }
+        with VllmRunner("facebook/opt-125m",
+                        enforce_eager=True,
+                        additional_config=input_additional_config_fake_6):
+            pass
+
+    # enable_multistream_moe should not be enabled without torchair graph mode
+    with pytest.raises(RuntimeError):
+        input_additional_config_fake_7 = {
+            "torchair_graph_config": {
+                "enabled": False,
+                "enable_multistream_moe": True,
+            },
+        }
+        with VllmRunner("facebook/opt-125m",
+                        enforce_eager=True,
+                        additional_config=input_additional_config_fake_7):
+            pass
+
 
 @_clean_up_ascend_config
 def test_check_ascend_config_v0():
@@ -168,9 +220,7 @@ def test_ascend_config_refresh():
     input_additional_config = {
         "torchair_graph_config": {
             "enabled": False,
-            "use_cached_graph": True,
-            "graph_batch_sizes": [1, 2, 4, 8],
-            "graph_batch_sizes_init": False,
+            "enable_view_optimize": False
         },
         "refresh": True,
     }
@@ -180,9 +230,4 @@ def test_ascend_config_refresh():
                     additional_config=input_additional_config):
         ascend_config = get_ascend_config()
 
-        assert not ascend_config.torchair_graph_config.enabled
-        assert ascend_config.torchair_graph_config.use_cached_graph
-        assert ascend_config.torchair_graph_config.graph_batch_sizes == [
-            1, 2, 4, 8
-        ]
-        assert not ascend_config.torchair_graph_config.graph_batch_sizes_init
+        assert not ascend_config.torchair_graph_config.enable_view_optimize
diff --git a/vllm_ascend/ascend_config.py b/vllm_ascend/ascend_config.py
@@ -70,6 +70,31 @@ def __init__(self, torchair_graph_config):
             raise ValueError(
                 "graph_batch_sizes_init is only valid when graph_batch_sizes is empty"
             )
+        if not self.enabled:
+            if self.use_cached_graph:
+                raise RuntimeError(
+                    "use_cached_graph is valid only when Torchair graph mode is enabled"
+                )
+            if self.graph_batch_sizes:
+                raise RuntimeError(
+                    "graph_batch_sizes is valid only when Torchair graph mode is enabled"
+                )
+            if self.graph_batch_sizes_init:
+                raise RuntimeError(
+                    "graph_batch_sizes_init is valid only when Torchair graph mode is enabled"
+                )
+            if self.enable_multistream_mla:
+                raise RuntimeError(
+                    "enable_multistream_mla is valid only when Torchair graph mode is enabled"
+                )
+            if self.enable_multistream_moe:
+                raise RuntimeError(
+                    "enable_multistream_moe is valid only when Torchair graph mode is enabled"
+                )
+            if self.enable_kv_nz:
+                raise RuntimeError(
+                    "enable_kv_nz is valid only when Torchair graph mode is enabled"
+                )
 
 
 class AscendSchedulerConfig:
diff --git a/vllm_ascend/models/deepseek_v2.py b/vllm_ascend/models/deepseek_v2.py
@@ -236,7 +236,8 @@ def __init__(
         ascend_config = get_ascend_config()
         self.torchair_graph_enabled = ascend_config.torchair_graph_config.enabled
         self.enable_multistream_moe = \
-            ascend_config.torchair_graph_config.enable_multistream_moe
+            ascend_config.torchair_graph_config.enable_multistream_moe and \
+            self.torchair_graph_enabled
 
         self.gate = ReplicatedLinear(config.hidden_size,
                                      config.n_routed_experts,
@@ -462,7 +463,8 @@ def __init__(
         ascend_config = get_ascend_config()
         self.torchair_graph_enabled = ascend_config.torchair_graph_config.enabled
         self.enable_multistream_mla = \
-            ascend_config.torchair_graph_config.enable_multistream_mla
+            ascend_config.torchair_graph_config.enable_multistream_mla and \
+            self.torchair_graph_enabled
 
     def forward(
             self,
diff --git a/vllm_ascend/ops/fused_moe.py b/vllm_ascend/ops/fused_moe.py
@@ -1090,7 +1090,8 @@ def __init__(
 
         self.torchair_graph_enabled = ascend_config.torchair_graph_config.enabled
         self.enable_multistream_moe = \
-            ascend_config.torchair_graph_config.enable_multistream_moe
+            ascend_config.torchair_graph_config.enable_multistream_moe and \
+            self.torchair_graph_enabled
 
         if self.scoring_func != "softmax" and not self.use_grouped_topk:
             raise ValueError("Only softmax scoring function is supported for "