update code

kevincheng2 · kevincheng2 · commit e766c60ec232 · 2025-07-08T15:47:05.000+08:00
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -1028,6 +1028,7 @@ class at the server level, which is too granular for ModelRunner.
             if self.parallel_config.tensor_parallel_degree > 1:
                 paddle.distributed.broadcast(sampled_token_ids, 0)
 
+            self.sampler.post_process(sampled_token_ids, skip_idx_list)
         else:
             self.sampler(logits, self.sampling_metadata,
                          self.parallel_config.max_model_len, self.share_inputs)
@@ -1097,7 +1098,6 @@ class at the server level, which is too granular for ModelRunner.
             self.speculative_config,
             self.parallel_config.enable_prefix_caching,
         )
-
         self._update_chunked_prefill(model_forward_batch)
         self._add_cache(model_forward_batch)
         return None