[Bugfix] infer_quantization_format when model only has activation quantization (#1635)

kylesayrs · dsikka · web-flow · commit b457898b3d6d · 2025-07-11T19:35:03.000Z
## Purpose ## * Fix KV cache tests, whose models only have activation quantization ## Background Previously, `is_model_quantized` would only check for quantization on leaf modules. Now it checks on attention modules as well, but since we have examples of attention modules with only activation quantization, this triggers a bug in `infer_quantization_format` ## Testing ## * Requires neuralmagic/compressed-tensors#387 to pass KV cache tests --------- Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> Co-authored-by: Dipika Sikka <dipikasikka1@gmail.com>
diff --git a/src/llmcompressor/transformers/compression/quantization_format.py b/src/llmcompressor/transformers/compression/quantization_format.py
@@ -3,10 +3,7 @@
 from compressed_tensors import CompressionFormat
 from compressed_tensors.config import SparsityStructure
 from compressed_tensors.quantization import QuantizationStrategy, QuantizationType
-from compressed_tensors.quantization.utils import (
-    is_model_quantized,
-    is_module_quantized,
-)
+from compressed_tensors.quantization.utils import is_module_quantized
 
 __all__ = ["infer_quantization_format"]
 
@@ -47,14 +44,14 @@ def infer_quantization_format(
     :param save_compressed: used to infer a quantization format if None is provided
     :return compression format appropriate for model
     """
-    if not is_model_quantized(model):
-        return None
-
     if quantization_format is not None:
         return quantization_format
 
+    weight_args, input_args = _get_unique_quant_args(model)
+    if len(weight_args) <= 0:
+        return None
+
     if save_compressed:
-        weight_args, input_args = _get_unique_quant_args(model)
         is_24_structure = (
             SparsityStructure(sparsity_structure) == SparsityStructure.TWO_FOUR
         )