skip layers if already fused (#322)

dsikka · web-flow · commit e5de2b9a27cc · 2025-05-21T12:57:21.000-05:00
diff --git a/src/compressed_tensors/quantization/lifecycle/initialize.py b/src/compressed_tensors/quantization/lifecycle/initialize.py
@@ -304,6 +304,9 @@ def _valid_fp4_quant(layer_list: List[torch.nn.Linear]):
     ):
 
         if _is_attention_module(submodule):
+            # already fused/treated as one layer
+            if hasattr(submodule, "qkv_proj"):
+                continue
 
             if not _valid_fp4_quant(
                 [submodule.q_proj, submodule.v_proj, submodule.k_proj]