update code

kevincheng2 · kevincheng2 · commit a0293e959f61 · 2025-07-11T14:34:04.000+08:00
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -1023,6 +1023,7 @@ class at the server level, which is too granular for ModelRunner.
             if self.parallel_config.tensor_parallel_degree > 1:
                 paddle.distributed.broadcast(sampler_output.sampled_token_ids, 0)
 
+            self.sampler.post_process(sampled_token_ids, skip_idx_list)
         else:
             self.sampler(logits, self.sampling_metadata,
                          self.parallel_config.max_model_len, self.share_inputs)
@@ -1092,7 +1093,6 @@ class at the server level, which is too granular for ModelRunner.
             self.speculative_config,
             self.parallel_config.enable_prefix_caching,
         )
-
         self._update_chunked_prefill(model_forward_batch)
         self._add_cache(model_forward_batch)
         return None