add some asserts to make lint happy

bnellnm · bnellnm · commit b5d7cbad961c · 2025-06-20T21:27:30.000Z
Signed-off-by: Bill Nell &lt;bnell@redhat.com&gt;
diff --git a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
@@ -103,6 +103,7 @@ def apply(
     ):
         import deep_gemm as dg
         assert hidden_states.ndim == 3
+        assert self.block_shape is not None
 
         a1q = hidden_states
         _, N, K = w1.size()
diff --git a/vllm/model_executor/layers/fused_moe/config.py b/vllm/model_executor/layers/fused_moe/config.py
@@ -341,7 +341,7 @@ def make(
 
         if quant_config is not None and isinstance(quant_config,
                                                    QuantizationConfig):
-            block_shape = quant_config.weight_block_size
+            block_shape = quant_config.get("weight_block_size", None)
             per_act_token_quant = False
             per_out_ch_quant = False
             quant_dtype: Optional[torch.dtype] = None
diff --git a/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
@@ -92,6 +92,7 @@ def workspace_shapes(
         self, a: torch.Tensor, aq: torch.Tensor, M: int, N: int, K: int,
         topk: int, global_num_experts: int, local_num_experts: int
     ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...], torch.dtype]:
+        assert self.block_shape is not None
         # We use global_num_experts due to how moe_align_block_size handles
         # expert_maps.
         num_experts = global_num_experts
@@ -124,6 +125,7 @@ def apply(
         expert_num_tokens: Optional[torch.Tensor],
     ):
         import deep_gemm as dg
+        assert self.block_shape is not None
 
         a1q = hidden_states
         _, N, K = w1.size()
diff --git a/vllm/model_executor/layers/fused_moe/triton_deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/triton_deep_gemm_moe.py
@@ -24,7 +24,7 @@ def __init__(
         allow_deep_gemm: bool = False,
     ):
         super().__init__(
-            FusedMoEQuantConfig(
+            FusedMoEQuantConfig.make(
                 use_fp8_w8a8=use_fp8_w8a8,
                 use_int8_w8a8=use_int8_w8a8,
                 use_int8_w8a16=use_int8_w8a16,
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -373,6 +373,8 @@ def apply(
                 global_num_experts=global_num_experts,
                 expert_map=expert_map)
 
+        assert self.fused_experts_func is not None
+
         return self.fused_experts_func(
             hidden_states=x,
             w1=layer.w13_weight,