Update model_runner_v1.py

ponix-j · web-flow · commit b408e85d1e05 · 2025-05-22T19:59:56.000+08:00
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -1167,16 +1167,15 @@ def load_model(self) -> None:
 
         with DeviceMemoryProfiler() as m:  # noqa: SIM117
             self.model = get_model(vllm_config=self.vllm_config)
+            if hasattr(self, "drafter"):
+                logger.info("Loading drafter model...")
+                self.drafter.load_model(self.model)
             if self.lora_config:
                 self.model = self.load_lora_model(self.model,
                                                   self.model_config,
                                                   self.scheduler_config,
                                                   self.lora_config,
                                                   self.device)
-
-            if hasattr(self, "drafter"):
-                logger.info("Loading drafter model...")
-                self.drafter.load_model(self.model)
         logger.info("Loading model weights took %.4f GB",
                     m.consumed_memory / float(2**30))