mlc-ai · annanyapr · Apr 14, 2025
diff --git a/python/mlc_llm/model/baichuan/baichuan_model.py b/python/mlc_llm/model/baichuan/baichuan_model.py
@@ -10,7 +10,7 @@
 from tvm.relax.frontend.nn import Tensor, op
 
 from mlc_llm import op as op_ext
-from mlc_llm.nn import PagedKVCache, RopeMode
+from mlc_llm.nn import PagedKVCache, RopeMode, create_generic_paged_kv_cache
 from mlc_llm.support import logging
 from mlc_llm.support import tensor_parallel as tp
 from mlc_llm.support.config import ConfigBase
@@ -280,7 +280,7 @@ def create_paged_kv_cache(  # pylint: disable=too-many-arguments
         page_size: tir.Var,
         support_sliding_window: tir.Var,
     ) -> PagedKVCache:
-        return PagedKVCache.create_generic(
+        return create_generic_paged_kv_cache(
             attn_kind="mha",
             max_batch_size=max_batch_size,
             max_total_seq_len=max_total_seq_len,
@@ -309,15 +309,15 @@ def get_default_spec(self):
             },
             "prefill": {
                 "input_embed": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "decode": {
                 "input_embed": nn.spec.Tensor([1, 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
@@ -326,23 +326,23 @@ def get_default_spec(self):
             "batch_prefill": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
                 "logit_positions": nn.spec.Tensor(["batch_size"], "int32"),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_decode": {
                 "input_embeds": nn.spec.Tensor(["batch_size", 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_verify": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",

diff --git a/python/mlc_llm/model/chatglm3/chatglm3_model.py b/python/mlc_llm/model/chatglm3/chatglm3_model.py
@@ -10,7 +10,7 @@
 from tvm.relax.frontend.nn import Tensor, op
 
 from mlc_llm import op as op_ext
-from mlc_llm.nn import PagedKVCache, RopeMode
+from mlc_llm.nn import PagedKVCache, RopeMode, create_generic_paged_kv_cache
 from mlc_llm.support import logging
 from mlc_llm.support import tensor_parallel as tp
 from mlc_llm.support.config import ConfigBase
@@ -355,7 +355,7 @@ def create_paged_kv_cache(  # pylint: disable=too-many-arguments
         page_size: tir.Var,
         support_sliding_window: tir.Var,
     ) -> PagedKVCache:
-        return PagedKVCache.create_generic(
+        return create_generic_paged_kv_cache(
             attn_kind="mha",
             max_batch_size=max_batch_size,
             max_total_seq_len=max_total_seq_len,
@@ -384,15 +384,15 @@ def get_default_spec(self):
             },
             "prefill": {
                 "input_embed": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "decode": {
                 "input_embed": nn.spec.Tensor([1, 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
@@ -401,23 +401,23 @@ def get_default_spec(self):
             "batch_prefill": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
                 "logit_positions": nn.spec.Tensor(["batch_size"], "int32"),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_decode": {
                 "input_embeds": nn.spec.Tensor(["batch_size", 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_verify": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",

diff --git a/python/mlc_llm/model/cohere/cohere_model.py b/python/mlc_llm/model/cohere/cohere_model.py
@@ -10,7 +10,7 @@
 from tvm.relax.frontend.nn import Tensor, op
 
 from mlc_llm import op as op_ext
-from mlc_llm.nn import PagedKVCache, RopeMode
+from mlc_llm.nn import PagedKVCache, RopeMode, create_generic_paged_kv_cache
 from mlc_llm.support import logging
 from mlc_llm.support import tensor_parallel as tp
 from mlc_llm.support.config import ConfigBase
@@ -324,7 +324,7 @@ def create_paged_kv_cache(  # pylint: disable=too-many-arguments
         page_size: tir.Var,
         support_sliding_window: tir.Var,
     ) -> PagedKVCache:
-        return PagedKVCache.create_generic(
+        return create_generic_paged_kv_cache(
             attn_kind="mha",
             max_batch_size=max_batch_size,
             max_total_seq_len=max_total_seq_len,
@@ -353,15 +353,15 @@ def get_default_spec(self):
             },
             "prefill": {
                 "input_embed": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "decode": {
                 "input_embed": nn.spec.Tensor([1, 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
@@ -370,23 +370,23 @@ def get_default_spec(self):
             "batch_prefill": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
                 "logit_positions": nn.spec.Tensor(["batch_size"], "int32"),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_decode": {
                 "input_embeds": nn.spec.Tensor(["batch_size", 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_verify": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",

diff --git a/python/mlc_llm/model/deepseek/deepseek_model.py b/python/mlc_llm/model/deepseek/deepseek_model.py
@@ -11,7 +11,7 @@
 from tvm.relax.frontend.nn import Tensor, op
 
 from mlc_llm import op as op_ext
-from mlc_llm.nn import PagedKVCache, RopeMode
+from mlc_llm.nn import PagedKVCache, RopeMode, create_generic_paged_kv_cache
 from mlc_llm.nn.expert import MixtralExperts
 from mlc_llm.support import logging
 from mlc_llm.support import tensor_parallel as tp
@@ -430,7 +430,7 @@ def create_paged_kv_cache(  # pylint: disable=too-many-arguments
         page_size: tir.Var,
         support_sliding_window: tir.Var,
     ) -> PagedKVCache:
-        return PagedKVCache.create_generic(
+        return create_generic_paged_kv_cache(
             attn_kind="mha",
             max_batch_size=max_batch_size,
             max_total_seq_len=max_total_seq_len,
@@ -459,15 +459,15 @@ def get_default_spec(self):
             },
             "prefill": {
                 "input_embed": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "decode": {
                 "input_embed": nn.spec.Tensor([1, 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
@@ -476,23 +476,23 @@ def get_default_spec(self):
             "batch_prefill": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
                 "logit_positions": nn.spec.Tensor(["batch_size"], "int32"),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_decode": {
                 "input_embeds": nn.spec.Tensor(["batch_size", 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_verify": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",

diff --git a/python/mlc_llm/model/deepseek_v2/deepseek_v2_model.py b/python/mlc_llm/model/deepseek_v2/deepseek_v2_model.py
@@ -12,7 +12,7 @@
 from tvm.relax.frontend.nn.llm import position_embedding
 
 from mlc_llm import op as op_ext
-from mlc_llm.nn import PagedKVCache, RopeMode
+from mlc_llm.nn import PagedKVCache, RopeMode, create_generic_paged_kv_cache
 from mlc_llm.nn.expert import MixtralExperts
 from mlc_llm.op import batch_matmul
 from mlc_llm.support import logging
@@ -771,7 +771,7 @@ def create_paged_kv_cache(  # pylint: disable=too-many-arguments
         page_size: tir.Var,
         support_sliding_window: tir.Var,
     ) -> PagedKVCache:
-        return PagedKVCache.create_generic(
+        return create_generic_paged_kv_cache(
             attn_kind="mla",
             max_batch_size=max_batch_size,
             max_total_seq_len=max_total_seq_len,
@@ -802,23 +802,23 @@ def get_default_spec(self):
             },
             "prefill": {
                 "input_embed": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "extend": {
                 "input_embed": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "decode": {
                 "input_embed": nn.spec.Tensor([1, 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
@@ -827,7 +827,7 @@ def get_default_spec(self):
             "batch_prefill": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
                 "logit_positions": nn.spec.Tensor(["batch_size"], "int32"),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
@@ -836,23 +836,23 @@ def get_default_spec(self):
             "batch_extend": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
                 "logit_positions": nn.spec.Tensor(["batch_size"], "int32"),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_decode": {
                 "input_embeds": nn.spec.Tensor(["batch_size", 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_verify": {
                 "input_embeds": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",

diff --git a/python/mlc_llm/model/eagle/eagle_model.py b/python/mlc_llm/model/eagle/eagle_model.py
@@ -11,7 +11,7 @@
 
 from mlc_llm import op as op_ext
 from mlc_llm.model.llama.llama_model import LlamaAttention, LlamaConfig, LlamaFFN
-from mlc_llm.nn import PagedKVCache, RopeMode
+from mlc_llm.nn import PagedKVCache, RopeMode, create_generic_paged_kv_cache
 from mlc_llm.support import logging
 from mlc_llm.support import tensor_parallel as tp
 
@@ -164,7 +164,7 @@ def create_paged_kv_cache(  # pylint: disable=too-many-arguments
         page_size: tir.Var,
         support_sliding_window: tir.Var,
     ) -> PagedKVCache:
-        return PagedKVCache.create_generic(
+        return create_generic_paged_kv_cache(
             attn_kind="mha",
             max_batch_size=max_batch_size,
             max_total_seq_len=max_total_seq_len,
@@ -201,31 +201,31 @@ def get_default_spec(self):
             },
             "prefill_to_last_hidden_states": {
                 "hidden_states": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "decode_to_last_hidden_states": {
                 "hidden_states": nn.spec.Tensor([1, 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_prefill_to_last_hidden_states": {
                 "hidden_states": nn.spec.Tensor([1, "seq_len", self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",
                 },
             },
             "batch_decode_to_last_hidden_states": {
                 "hidden_states": nn.spec.Tensor(["batch_size", 1, self.hidden_size], self.dtype),
-                "paged_kv_cache": nn.spec.Object(object_type=PagedKVCache),
+                "paged_kv_cache": nn.spec.PagedKVCache(),
                 "$": {
                     "param_mode": "packed",
                     "effect_mode": "none",