lint

bnellnm · bnellnm · commit 680de263896c · 2025-06-13T02:23:48.000Z
Signed-off-by: Bill Nell &lt;bnell@redhat.com&gt;
diff --git a/vllm/model_executor/layers/fused_moe/config.py b/vllm/model_executor/layers/fused_moe/config.py
@@ -250,10 +250,10 @@ def quant_dtype(self) -> Optional[torch.dtype]:
 
     @property
     def block_shape(self) -> Optional[list[int]]:
-         if self.quant_config is not None:
-             return self.quant_config.block_shape
-         else:
-             return None
+        if self.quant_config is not None:
+            return self.quant_config.block_shape
+        else:
+            return None
 
     @property
     def per_act_token_quant(self) -> bool:
diff --git a/vllm/model_executor/layers/fused_moe/fused_batched_moe.py b/vllm/model_executor/layers/fused_moe/fused_batched_moe.py
@@ -560,8 +560,8 @@ def prepare(
                     quant_config.per_act_token_quant,
                     quant_config.block_shape,
                 ))
-                if (quant_config.block_shape is None and
-                    not quant_config.per_act_token_quant):
+                if (quant_config.block_shape is None
+                        and not quant_config.per_act_token_quant):
                     b_a1_scale[idx] = b_s
                 else:
                     #print(f"XXXXX rhs={rhs.shape} b_s={b_s.shape}")
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
@@ -94,8 +94,7 @@ def init_prepare_finalize(self, moe: FusedMoEConfig,
             )
 
             logger.debug("All2All %s, %s = %s/%s", moe.quant_dtype,
-                         moe.block_shape, hidden_dim_bytes,
-                         hidden_scale_bytes)
+                         moe.block_shape, hidden_dim_bytes, hidden_scale_bytes)
 
             all_to_all_args = dict(
                 max_num_tokens=moe.max_num_tokens,
@@ -225,8 +224,6 @@ def select_gemm_impl(self, prepare_finalize: FusedMoEPrepareAndFinalize,
         all2all_manager = get_ep_group().device_communicator.all2all_manager
         assert all2all_manager is not None
 
-        experts: Optional[FusedMoEPermuteExpertsUnpermute] = None
-
         use_batched_experts = prepare_finalize.max_num_tokens_per_rank(
         ) is not None
         if use_batched_experts:
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -587,7 +587,8 @@ def select_gemm_impl(self, prepare_finalize, moe):
 
         assert moe is not None
 
-        # method on prepare_finalize?  sketchy getting world_size from prepare_finalize
+        # TODO(bnell) method on prepare_finalize? sketchy getting world_size
+        # from prepare_finalize
         max_experts_per_worker = (
             (moe.num_experts + prepare_finalize.world_size - 1) //
             prepare_finalize.world_size)
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
@@ -790,14 +790,15 @@ def select_gemm_impl(self, prepare_finalize, moe):
 
         if use_batched_experts:
             logger.debug(
-                "BatchedTritonOrDeepGemmExperts(%s): max_tokens_per_rank=%s, block_size=%s, per_act_token=%s",
+                "BatchedTritonOrDeepGemmExperts(%s): "
+                "max_tokens_per_rank=%s, block_size=%s, per_act_token=%s",
                 self.__class__.__name__, max_num_tokens_per_rank,
                 self.quant_config.weight_block_size, False)
             return BatchedTritonOrDeepGemmExperts(
                 max_num_tokens=
                 max_num_tokens_per_rank,  # get from prepare_finalize?
-                world_size=prepare_finalize.world_size,  # sketchy
-                dp_size=prepare_finalize.dp_size,  # sketchy
+                world_size=prepare_finalize.world_size,  #  TODOsketchy
+                dp_size=prepare_finalize.dp_size,  # TODO sketchy
                 use_fp8_w8a8=True,
                 block_shape=self.quant_config.weight_block_size,
                 per_act_token_quant=False,  #?