[Bugfix] Support offloaded parameters when initializing KV cache parameters (#261)

kylesayrs · web-flow · commit ea8848b94083 · 2025-02-27T12:49:49.000-05:00
* use register_offload_parameter

Signed-off-by: Kyle Sayers &lt;kylesayrs@gmail.com&gt;

* fix typo

Signed-off-by: Kyle Sayers &lt;kylesayrs@gmail.com&gt;

---------

Signed-off-by: Kyle Sayers &lt;kylesayrs@gmail.com&gt;
diff --git a/src/compressed_tensors/linear/compressed_linear.py b/src/compressed_tensors/linear/compressed_linear.py
@@ -21,6 +21,7 @@
     QuantizationStatus,
     initialize_module_for_quantization,
 )
+from compressed_tensors.utils import register_offload_parameter
 from torch import Tensor
 from torch.nn import Parameter
 from torch.nn.functional import linear
@@ -68,7 +69,7 @@ def from_linear(
             param = Parameter(
                 torch.empty(shape, device=device, dtype=dtype), requires_grad=False
             )
-            module.register_parameter(name, param)
+            register_offload_parameter(module, name, param)
 
         # mark module as compressed
         module.quantization_status = QuantizationStatus.COMPRESSED
diff --git a/src/compressed_tensors/quantization/lifecycle/initialize.py b/src/compressed_tensors/quantization/lifecycle/initialize.py
@@ -203,11 +203,10 @@ def _initialize_attn_scales(module: Module) -> None:
         torch.empty(expected_shape, dtype=scale_dtype, device=device),
         requires_grad=False,
     )
-
-    module.register_parameter(KVCacheScaleType.KEY.value, init_scale)
+    register_offload_parameter(module, KVCacheScaleType.KEY.value, init_scale)
 
     init_scale = Parameter(
         torch.empty(expected_shape, dtype=scale_dtype, device=device),
         requires_grad=False,
     )
-    module.register_parameter(KVCacheScaleType.VALUE.value, init_scale)
+    register_offload_parameter(module, KVCacheScaleType.VALUE.value, init_scale)

Original file line number	Diff line number	Diff line change
`@@ -203,11 +203,10 @@ def _initialize_attn_scales(module: Module) -> None:`
`203`	`203`	`torch.empty(expected_shape, dtype=scale_dtype, device=device),`
`204`	`204`	`requires_grad=False,`
`205`	`205`	`)`
`206`		`-`
`207`		`- module.register_parameter(KVCacheScaleType.KEY.value, init_scale)`
	`206`	`+ register_offload_parameter(module, KVCacheScaleType.KEY.value, init_scale)`
`208`	`207`
`209`	`208`	`init_scale = Parameter(`
`210`	`209`	`torch.empty(expected_shape, dtype=scale_dtype, device=device),`
`211`	`210`	`requires_grad=False,`
`212`	`211`	`)`
`213`		`- module.register_parameter(KVCacheScaleType.VALUE.value, init_scale)`
	`212`	`+ register_offload_parameter(module, KVCacheScaleType.VALUE.value, init_scale)`