add actual_batch_size to rope_qkv_varseq_prefill (#4380)

bottler · facebook-github-bot · commit 95bae749906a · 2025-06-20T14:07:57.000-07:00
Summary: Pull Request resolved: #4380 X-link: facebookresearch/FBGEMM#1450 The validation pass in Parallel Decoding uses prefill logic inside a cudagraph, and can need this for correctness. Reviewed By: jianyuh Differential Revision: D76900768 fbshipit-source-id: c87f057654a2839a3416d48b047f386fc828fe6a
diff --git a/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cpp b/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cpp
@@ -52,6 +52,7 @@ at::Tensor rope_qkv_varseq_prefill_meta(
     std::optional<int64_t> /* num_groups */,
     std::optional<at::Tensor> /* block_tables */,
     int64_t /* page_size */,
+    std::optional<at::Tensor> /* actual_batch_size */,
     std::optional<at::Tensor> /* varseq_cache_seqpos */,
     int64_t /* cache_logical_dtype_int */,
     bool /* rope_scaling */,
@@ -109,6 +110,7 @@ at::Tensor nope_qkv_varseq_prefill_meta(
     at::Tensor /* varseq_seqpos */,
     std::optional<at::Tensor> /* block_tables */,
     int64_t /* page_size */,
+    std::optional<at::Tensor> /* actual_batch_size */,
     std::optional<at::Tensor> /* varseq_cache_seqpos */,
     int64_t /* cache_logical_dtype_int */,
     std::optional<int64_t> /* num_groups */,
@@ -160,6 +162,7 @@ at::Tensor xpos_qkv_varseq_prefill_meta(
     std::optional<int64_t> /* num_groups */,
     std::optional<at::Tensor> /* block_tables */,
     int64_t /* page_size */,
+    std::optional<at::Tensor> /* actual_batch_size */,
     std::optional<at::Tensor> /* varseq_cache_seqpos */,
     int64_t /* cache_logical_dtype_int */,
     bool /* rope_scaling */,
diff --git a/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cu b/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cu
@@ -1204,6 +1204,7 @@ at::Tensor nope_qkv_varseq_prefill(
     at::Tensor varseq_seqpos,
     std::optional<at::Tensor> block_tables,
     int64_t page_size,
+    std::optional<at::Tensor> actual_batch_size,
     std::optional<at::Tensor> varseq_cache_seqpos,
     int64_t cache_logical_dtype_int,
     std::optional<int64_t> num_groups,
@@ -1252,6 +1253,11 @@ at::Tensor nope_qkv_varseq_prefill(
     block_tables_ptr = static_cast<int32_t*>(block_tables.value().data_ptr());
     block_tables_b_stride = block_tables.value().stride(0);
   }
+  int64_t* actual_batch_size_ptr = nullptr;
+  if (actual_batch_size.has_value()) {
+    actual_batch_size_ptr =
+        static_cast<int64_t*>(actual_batch_size.value().data_ptr());
+  }
   CacheLogicalDtype cache_logical_dtype =
       static_cast<CacheLogicalDtype>(cache_logical_dtype_int);
   if (cache_K.dtype() == at::kBFloat16) {
@@ -1273,7 +1279,7 @@ at::Tensor nope_qkv_varseq_prefill(
         block_tables_b_stride,
         varseq_cache_seqpos_
             .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
-        nullptr,
+        actual_batch_size_ptr,
         update_kv);
     C10_CUDA_KERNEL_LAUNCH_CHECK();
   } else {
@@ -1356,7 +1362,7 @@ at::Tensor nope_qkv_varseq_prefill(
             block_tables_b_stride,
             (varseq_cache_seqpos_
                  .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
-            nullptr,
+            actual_batch_size_ptr,
             false,
             0,
             0,
@@ -1386,7 +1392,7 @@ at::Tensor nope_qkv_varseq_prefill(
           block_tables_b_stride,
           (varseq_cache_seqpos_
                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
-          nullptr,
+          actual_batch_size_ptr,
           false,
           0,
           0,
@@ -1614,6 +1620,7 @@ at::Tensor rope_qkv_varseq_prefill(
     std::optional<int64_t> num_groups,
     std::optional<at::Tensor> block_tables,
     int64_t page_size,
+    std::optional<at::Tensor> actual_batch_size,
     std::optional<at::Tensor> varseq_cache_seqpos,
     int64_t cache_logical_dtype_int,
     bool rope_scaling = false,
@@ -1669,6 +1676,11 @@ at::Tensor rope_qkv_varseq_prefill(
     block_tables_ptr = static_cast<int32_t*>(block_tables.value().data_ptr());
     block_tables_b_stride = block_tables.value().stride(0);
   }
+  int64_t* actual_batch_size_ptr = nullptr;
+  if (actual_batch_size.has_value()) {
+    actual_batch_size_ptr =
+        static_cast<int64_t*>(actual_batch_size.value().data_ptr());
+  }
   if (cache_K.dtype() == at::kBFloat16) {
     rope_xpos_qkv_varseq_prefill_kernel<PositionEmbeddingMode::ROPE>
         <<<blocks, threads, 0, at::cuda::getCurrentCUDAStream()>>>(
@@ -1690,7 +1702,7 @@ at::Tensor rope_qkv_varseq_prefill(
             block_tables_b_stride,
             varseq_cache_seqpos_
                 .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
-            nullptr,
+            actual_batch_size_ptr,
             rope_scaling,
             old_context_len,
             scaling_factor,
@@ -1780,7 +1792,7 @@ at::Tensor rope_qkv_varseq_prefill(
             block_tables_b_stride,
             (varseq_cache_seqpos_
                  .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
-            nullptr,
+            actual_batch_size_ptr,
             rope_scaling,
             old_context_len,
             scaling_factor,
@@ -1810,7 +1822,7 @@ at::Tensor rope_qkv_varseq_prefill(
           block_tables_b_stride,
           (varseq_cache_seqpos_
                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
-          nullptr,
+          actual_batch_size_ptr,
           rope_scaling,
           old_context_len,
           scaling_factor,
@@ -1840,6 +1852,7 @@ at::Tensor xpos_qkv_varseq_prefill(
     std::optional<int64_t> num_groups,
     std::optional<at::Tensor> block_tables,
     int64_t page_size,
+    std::optional<at::Tensor> actual_batch_size,
     std::optional<at::Tensor> varseq_cache_seqpos,
     int64_t cache_logical_dtype_int,
     bool rope_scaling = false,
@@ -1876,6 +1889,11 @@ at::Tensor xpos_qkv_varseq_prefill(
     block_tables_b_stride = block_tables.value().stride(0);
   }
 
+  int64_t* actual_batch_size_ptr = nullptr;
+  if (actual_batch_size.has_value()) {
+    actual_batch_size_ptr =
+        static_cast<int64_t*>(actual_batch_size.value().data_ptr());
+  }
   if (cache_K.dtype() == at::kBFloat16) {
     rope_xpos_qkv_varseq_prefill_kernel<PositionEmbeddingMode::XPOS>
         <<<blocks, threads, 0, at::cuda::getCurrentCUDAStream()>>>(
@@ -1897,7 +1915,7 @@ at::Tensor xpos_qkv_varseq_prefill(
             block_tables_b_stride,
             varseq_cache_seqpos_
                 .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
-            nullptr,
+            actual_batch_size_ptr,
             rope_scaling,
             old_context_len,
             scaling_factor,
@@ -1934,7 +1952,7 @@ at::Tensor xpos_qkv_varseq_prefill(
           block_tables_b_stride,
           (varseq_cache_seqpos_
                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
-          nullptr,
+          actual_batch_size_ptr,
           rope_scaling,
           old_context_len,
           scaling_factor,
@@ -1964,7 +1982,7 @@ at::Tensor xpos_qkv_varseq_prefill(
           block_tables_b_stride,
           (varseq_cache_seqpos_
                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
-          nullptr,
+          actual_batch_size_ptr,
           rope_scaling,
           old_context_len,
           scaling_factor,
diff --git a/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.h b/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.h
@@ -20,6 +20,7 @@ at::Tensor nope_qkv_varseq_prefill(
     at::Tensor varseq_seqpos,
     std::optional<at::Tensor> block_tables,
     int64_t page_size,
+    std::optional<at::Tensor> actual_batch_size,
     std::optional<at::Tensor> varseq_cache_seqpos,
     int64_t cache_logical_dtype_int,
     std::optional<int64_t> num_groups,
@@ -62,6 +63,7 @@ at::Tensor rope_qkv_varseq_prefill(
     std::optional<int64_t> num_groups,
     std::optional<at::Tensor> block_tables,
     int64_t page_size,
+    std::optional<at::Tensor> actual_batch_size,
     std::optional<at::Tensor> varseq_cache_seqpos,
     int64_t cache_logical_dtype_int,
     bool rope_scaling,
@@ -118,6 +120,7 @@ at::Tensor xpos_qkv_varseq_prefill(
     std::optional<int64_t> num_groups,
     std::optional<at::Tensor> block_tables,
     int64_t page_size,
+    std::optional<at::Tensor> actual_batch_size,
     std::optional<at::Tensor> varseq_cache_seqpos,
     int64_t cache_logical_dtype_int,
     bool rope_scaling,
diff --git a/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache_defs.cpp b/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache_defs.cpp
@@ -16,16 +16,16 @@ namespace fbgemm_gpu {
 
 TORCH_LIBRARY_FRAGMENT(fbgemm, m) {
   m.def("rope_qkv_varseq_prefill(Tensor XQ, Tensor(a!)? XK, Tensor? XV, Tensor(b!) cache_K, Tensor(c!) cache_V,  Tensor varseq_batch, Tensor varseq_seqpos, float theta, int? num_groups=1, Tensor? block_tables=None, int page_size=" STRING(
-        DEFAULT_PAGE_SIZE) ", Tensor? varseq_cache_seqpos=None, int cache_logical_dtype_int=0, bool rope_scaling=False, int old_context_len=8192"
+        DEFAULT_PAGE_SIZE) ", Tensor? actual_batch_size=None, Tensor? varseq_cache_seqpos=None, int cache_logical_dtype_int=0, bool rope_scaling=False, int old_context_len=8192"
         ", float scaling_factor=16, float lo_freq_factor=1, float hi_freq_factor=32,  Tensor? qparam_k=None, Tensor? qparam_v=None, bool write_k_back=False, bool k_norm=False,bool update_kv=True, Tensor?amax_qkv=None, Tensor?kv_quant_scale_precomputed=None) -> Tensor");
   m.def("rope_qkv_decoding(Tensor XQ, Tensor? XK, Tensor? XV, Tensor(a!) cache_K, Tensor(b!) cache_V,  Tensor seqpos, float theta, int? num_groups=1, Tensor? block_tables=None, int page_size=" STRING(
       DEFAULT_PAGE_SIZE) ", Tensor? actual_batch_size=None, Tensor? batch=None, Tensor? cache_seqpos=None,  int cache_logical_dtype_int=0, bool rope_scaling=False, int old_context_len=8192, float scaling_factor=16, float lo_freq_factor=1, float hi_freq_factor=32, Tensor? qparam_k=None, Tensor? qparam_v=None, bool k_norm=False, bool update_kv=True, Tensor?amax_qkv=None) -> Tensor");
   m.def("nope_qkv_varseq_prefill(Tensor XQ, Tensor? XK, Tensor? XV, Tensor(a!) cache_K, Tensor(b!) cache_V,  Tensor varseq_batch, Tensor varseq_seqpos, Tensor? block_tables=None, int page_size=" STRING(
-      DEFAULT_PAGE_SIZE) ", Tensor? varseq_cache_seqpos=None, int cache_logical_dtype_int=0, int? num_groups=1, Tensor? qparam_k=None, Tensor? qparam_v=None, bool k_norm=False, bool update_kv=True, Tensor?amax_qkv=None, Tensor?kv_quant_scale_precomputed=None) -> Tensor");
+      DEFAULT_PAGE_SIZE) ", Tensor? actual_batch_size=None, Tensor? varseq_cache_seqpos=None, int cache_logical_dtype_int=0, int? num_groups=1, Tensor? qparam_k=None, Tensor? qparam_v=None, bool k_norm=False, bool update_kv=True, Tensor?amax_qkv=None, Tensor?kv_quant_scale_precomputed=None) -> Tensor");
   m.def("nope_qkv_decoding(Tensor XQ, Tensor? XK, Tensor? XV, Tensor(a!) cache_K, Tensor(b!) cache_V,  Tensor seqpos, Tensor? block_tables=None, int page_size=" STRING(
       DEFAULT_PAGE_SIZE) ", Tensor? actual_batch_size=None, Tensor? batch=None, Tensor? cache_seqpos=None, int cache_logical_dtype_int=0, int? num_groups=1, Tensor? qparam_k=None, Tensor? qparam_v=None, bool k_norm=False, bool update_kv=True, Tensor?amax_qkv=None) -> Tensor");
   m.def("xpos_qkv_varseq_prefill(Tensor XQ, Tensor XK, Tensor XV, Tensor(a!) cache_K, Tensor(b!) cache_V, Tensor varseq_batch, Tensor varseq_seqpos, float theta, float gamma, float scale_base, float exponent_offset, int? num_groups=1, Tensor? block_tables=None, int page_size=" STRING(
-      DEFAULT_PAGE_SIZE) ", Tensor? varseq_cache_seqpos=None, int cache_logical_dtype_int=0, bool rope_scaling=False, int old_context_len=8192, float scaling_factor=16, float lo_freq_factor=1, float hi_freq_factor=32,  Tensor? qparam_k=None, Tensor? qparam_v=None) -> Tensor");
+      DEFAULT_PAGE_SIZE) ", Tensor? actual_batch_size=None, Tensor? varseq_cache_seqpos=None, int cache_logical_dtype_int=0, bool rope_scaling=False, int old_context_len=8192, float scaling_factor=16, float lo_freq_factor=1, float hi_freq_factor=32,  Tensor? qparam_k=None, Tensor? qparam_v=None) -> Tensor");
   m.def("xpos_qkv_decoding(Tensor XQ, Tensor XK, Tensor XV, Tensor(a!) cache_K, Tensor(b!) cache_V,  Tensor seqpos, float theta, float gamma, float scale_base, float exponent_offset, int? num_groups=1, Tensor? block_tables=None, int page_size=" STRING(
       DEFAULT_PAGE_SIZE) ", Tensor? actual_batch_size=None, Tensor? batch=None, Tensor? cache_seqpos=None, int cache_logical_dtype_int=0, bool rope_scaling=False, int old_context_len=8192, float scaling_factor=16, float lo_freq_factor=1, float hi_freq_factor=32,  Tensor? qparam_k=None, Tensor? qparam_v=None) -> Tensor");
   m.def(