[mps] Add offsets to enable aoti (#2484)

angelayi · web-flow · commit e9644da9208b · 2025-07-07T17:10:35.000-07:00
* Update

[ghstack-poisoned]

* Update (base update)

[ghstack-poisoned]

* Update

[ghstack-poisoned]

* Update

[ghstack-poisoned]
diff --git a/torchao/experimental/kernels/mps/src/lowbit.h b/torchao/experimental/kernels/mps/src/lowbit.h
@@ -73,11 +73,11 @@ using DispatchFn =
     void (*)(id<MTLComputeCommandEncoder>, int32_t, int32_t, int32_t, int32_t);
 
 inline void linear_lowbit_quant_weights_mps_impl(
-    id<MTLBuffer> a_buf,
-    id<MTLBuffer> b_buf,
-    id<MTLBuffer> s_buf,
-    id<MTLBuffer> z_buf,
-    id<MTLBuffer> out_buf,
+    std::pair<id<MTLBuffer>, size_t> a_buf_offset,
+    std::pair<id<MTLBuffer>, size_t> b_buf_offset,
+    std::pair<id<MTLBuffer>, size_t> s_buf_offset,
+    std::pair<id<MTLBuffer>, size_t> z_buf_offset,
+    std::pair<id<MTLBuffer>, size_t> out_buf_offset,
     int32_t M,
     int32_t K,
     int32_t N,
@@ -97,11 +97,11 @@ inline void linear_lowbit_quant_weights_mps_impl(
           metal_lowbit_quantized_lib.getPipelineStateForFunc(shader_func);
       const auto maxThreadsPerGroup = [cpl maxTotalThreadsPerThreadgroup];
       [computeEncoder setComputePipelineState:cpl];
-      [computeEncoder setBuffer:a_buf offset:0 atIndex:0];
-      [computeEncoder setBuffer:b_buf offset:0 atIndex:1];
-      [computeEncoder setBuffer:s_buf offset:0 atIndex:2];
-      [computeEncoder setBuffer:z_buf offset:0 atIndex:3];
-      [computeEncoder setBuffer:out_buf offset:0 atIndex:4];
+      [computeEncoder setBuffer:a_buf_offset.first offset:a_buf_offset.second atIndex:0];
+      [computeEncoder setBuffer:b_buf_offset.first offset:b_buf_offset.second atIndex:1];
+      [computeEncoder setBuffer:s_buf_offset.first offset:s_buf_offset.second atIndex:2];
+      [computeEncoder setBuffer:z_buf_offset.first offset:z_buf_offset.second atIndex:3];
+      [computeEncoder setBuffer:out_buf_offset.first offset:out_buf_offset.second atIndex:4];
       [computeEncoder setBytes:sizes.data()
                         length:sizeof(uint32_t) * sizes.size()
                        atIndex:5];
@@ -133,12 +133,12 @@ std::tuple<const std::string, DispatchFn> get_shader_func_and_dispatch(
 // LowBit Quantized Weights Linear on Metal
 template <int nbit>
 void linear_lowbit_quant_weights_mps(
-    id<MTLBuffer> a_buf,
-    id<MTLBuffer> b_buf,
+    std::pair<id<MTLBuffer>, size_t> a_buf_offset,
+    std::pair<id<MTLBuffer>, size_t> b_buf_offset,
     int64_t qGroupSize,
-    id<MTLBuffer> s_buf,
-    id<MTLBuffer> z_buf,
-    id<MTLBuffer> out_buf,
+    std::pair<id<MTLBuffer>, size_t> s_buf_offset,
+    std::pair<id<MTLBuffer>, size_t> z_buf_offset,
+    std::pair<id<MTLBuffer>, size_t> out_buf_offset,
     int32_t M,
     int32_t K,
     int32_t N,
@@ -154,11 +154,11 @@ void linear_lowbit_quant_weights_mps(
   const DispatchFn dispatch_fn = std::get<1>(shader_func_and_dispatch);
 
   return linear_lowbit_quant_weights_mps_impl(
-      a_buf,
-      b_buf,
-      s_buf,
-      z_buf,
-      out_buf,
+      a_buf_offset,
+      b_buf_offset,
+      s_buf_offset,
+      z_buf_offset,
+      out_buf_offset,
       M,
       K,
       N,
diff --git a/torchao/experimental/kernels/mps/test/test_lowbit.mm b/torchao/experimental/kernels/mps/test/test_lowbit.mm
@@ -118,12 +118,12 @@ void pack() {
 
   void linear() {
     LowBitQuantWeights<nbit>::linear(
-        buf_A,
-        buf_B,
+        {buf_A, 0},
+        {buf_B, 0},
         qGroupSize,
-        buf_S,
-        buf_Z,
-        buf_C,
+        {buf_S, 0},
+        {buf_Z, 0},
+        {buf_C, 0},
         M,
         K,
         N,
diff --git a/torchao/experimental/ops/mps/linear_fp_act_xbit_weight_aten.mm b/torchao/experimental/ops/mps/linear_fp_act_xbit_weight_aten.mm
@@ -97,12 +97,12 @@ Tensor linear_mps_kernel_out(
   auto K = A.size(1);
 
   LowBitQuantWeights<nbit>::linear(
-      getMTLBufferStorage(A),
-      getMTLBufferStorage(B),
+      {getMTLBufferStorage(A), A.storage_offset() * A.element_size()},
+      {getMTLBufferStorage(B), B.storage_offset() * B.element_size()},
       group_size,
-      getMTLBufferStorage(S),
-      getMTLBufferStorage(Z),
-      getMTLBufferStorage(C),
+      {getMTLBufferStorage(S), S.storage_offset() * S.element_size()},
+      {getMTLBufferStorage(Z), Z.storage_offset() * Z.element_size()},
+      {getMTLBufferStorage(C), C.storage_offset() * C.element_size()},
       M,
       K,
       N,
diff --git a/torchao/experimental/ops/mps/linear_fp_act_xbit_weight_executorch.mm b/torchao/experimental/ops/mps/linear_fp_act_xbit_weight_executorch.mm
@@ -95,12 +95,12 @@ bool check_linear_mps_args(
   auto K = A.size(1);
 
   torchao::kernels::mps::lowbit::LowBitQuantWeights<nbit>::linear(
-      getMTLBufferStorage(A),
-      getMTLBufferStorage(B),
+      {getMTLBufferStorage(A), A.storage_offset() * A.element_size()},
+      {getMTLBufferStorage(B), B.storage_offset() * B.element_size()},
       group_size,
-      getMTLBufferStorage(S),
-      getMTLBufferStorage(Z),
-      getMTLBufferStorage(out),
+      {getMTLBufferStorage(S), S.storage_offset() * S.element_size()},
+      {getMTLBufferStorage(Z), Z.storage_offset() * Z.element_size()},
+      {getMTLBufferStorage(out), out.storage_offset() * out.element_size()},
       M,
       K,
       N,
diff --git a/torchao/experimental/ops/mps/test/test_quantizer.py b/torchao/experimental/ops/mps/test/test_quantizer.py
@@ -86,6 +86,42 @@ def test_export(self, nbit):
                     == f"torchao._linear_fp_act_{nbit}bit_weight.default"
                 )
 
+    @parameterized.expand(BITWIDTHS)
+    def test_export_accuracy(self, nbit):
+        group_size = 32
+        m = 3
+        n = 12
+        k = 64
+        with torch.no_grad():
+            activations = torch.rand(m, k, dtype=torch.float32, device="mps")
+            model = torch.nn.Sequential(*[torch.nn.Linear(k, n, bias=False)])
+
+            # Compute expected result
+            weight_cpu = model[0].weight.data
+            weight_qvals_cpu, weight_scales_cpu, weight_zeros_cpu = _quantize(
+                weight_cpu, group_size, nbit, True, torch.uint8
+            )
+            weight_zeros_cpu = -weight_zeros_cpu * weight_scales_cpu
+            expected = self._reference_linear_lowbit_quant_weights(
+                activations.cpu(),
+                weight_qvals_cpu,
+                group_size,
+                weight_scales_cpu,
+                weight_zeros_cpu,
+            )
+
+            quantized_model = self._quantize_model(
+                model, torch.float32, nbit, group_size
+            )
+
+            ep = torch.export.export(quantized_model, (activations,), strict=True)
+            path = torch._inductor.aoti_compile_and_package(ep)
+            compiled_model = torch._inductor.aoti_load_package(path)
+            result = compiled_model(activations)
+
+            # Compare results
+            torch.testing.assert_close(result.cpu(), expected, rtol=0.001, atol=0.001)
+
     @parameterized.expand(BITWIDTHS)
     def test_2d_output_device_and_shape(self, nbit):
         model, group_size, k0, n = self._model_setup()