fix test_deepep_moe.py

bnellnm · bnellnm · commit c88f65d18c59 · 2025-06-27T01:34:08.000Z
Signed-off-by: Bill Nell &lt;bnell@redhat.com&gt;
diff --git a/tests/kernels/moe/test_deepep_moe.py b/tests/kernels/moe/test_deepep_moe.py
@@ -104,10 +104,6 @@ def make(config: TestConfig, low_latency_mode: bool) -> "TestTensors":
         rank_tokens = torch.randn(
             (config.m, config.k), device="cuda", dtype=token_dtype) / 10
         rank_token_scales = None
-        if config.dtype == torch.float8_e4m3fn:
-            # low_latency_mode kernels dont support per-token quant.
-            _, rank_token_scales = ops.scaled_fp8_quant(
-                rank_tokens, use_per_token_if_dynamic=not low_latency_mode)
 
         topk = torch.randint(low=0,
                              high=config.num_experts,
diff --git a/vllm/model_executor/layers/fused_moe/deepep_ht_prepare_finalize.py b/vllm/model_executor/layers/fused_moe/deepep_ht_prepare_finalize.py
@@ -157,7 +157,7 @@ def prepare(
                 a1,
                 a1_scale,
                 quant_dtype=quant_config.quant_dtype,
-                per_act_token_quant=False,
+                per_act_token_quant=True,
                 block_shape=quant_config.block_shape,
             )
             (expert_x, expert_x_scale, expert_num_tokens, expert_topk_ids,

Original file line number	Diff line number	Diff line change
`@@ -157,7 +157,7 @@ def prepare(`
`157`	`157`	`a1,`
`158`	`158`	`a1_scale,`
`159`	`159`	`quant_dtype=quant_config.quant_dtype,`
`160`		`- per_act_token_quant=False,`
	`160`	`+ per_act_token_quant=True,`
`161`	`161`	`block_shape=quant_config.block_shape,`
`162`	`162`	`)`
`163`	`163`	`(expert_x, expert_x_scale, expert_num_tokens, expert_topk_ids,`