Update model_runner_v1.py

ponix-j · web-flow · commit d3cd576b600c · 2025-05-23T10:16:31.000+08:00
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -850,7 +850,7 @@ def apply_grammar_bitmask(
         )
         return logits.to(self.device).to(logits_dtype)
 
-    def get_spec_token_ids(
+    def _get_spec_token_ids(
         self,
         valid_sampled_token_ids: list[list[int]],
         sampling_metadata: SamplingMetadata,
@@ -866,9 +866,10 @@ def get_spec_token_ids(
             spec_token_ids = None
         elif self.speculative_config.method == "ngram":
             assert isinstance(self.drafter, NgramProposer)
-            spec_token_ids = self.generate_draft_token_ids(
+            spec_token_ids = self._generate_draft_token_ids(
                 valid_sampled_token_ids, sampling_metadata)
         elif self.speculative_config.method == "eagle":
+            raise NotImplementedError("eagle method for spec decode doesn't work on vllm-ascend currently")
             assert isinstance(self.drafter, EagleProposer)
             # TODO(woosuk): Refactor the loop.
             next_token_ids: list[int] = []
@@ -1020,7 +1021,7 @@ def execute_model(
                 self.input_batch.vocab_size,
             )
 
-        spec_token_ids = self.get_spec_token_ids(
+        spec_token_ids = self._get_spec_token_ids(
             valid_sampled_token_ids,
             sampling_metadata,
             scheduler_output,
@@ -1390,7 +1391,7 @@ def capture_model(self) -> None:
         logger.info("Graph capturing finished in %.0f secs, took %.2f GiB",
                     elapsed_time, npu_graph_size / (1 << 30))
 
-    def generate_draft_token_ids(
+    def _generate_draft_token_ids(
         self,
         sampled_token_ids: list[list[int]],
         sampling_metadata: SamplingMetadata,