pytorch
diff --git a/‎fbgemm_gpu/codegen/__init__.template
Lines changed: 2 additions & 0 deletions b/‎fbgemm_gpu/codegen/__init__.template
Lines changed: 2 additions & 0 deletions
diff --git a/‎fbgemm_gpu/codegen/embedding_backward_code_generator.py
Lines changed: 7 additions & 4 deletions b/‎fbgemm_gpu/codegen/embedding_backward_code_generator.py
Lines changed: 7 additions & 4 deletions
diff --git a/‎fbgemm_gpu/codegen/lookup_args.py
Lines changed: 7 additions & 0 deletions b/‎fbgemm_gpu/codegen/lookup_args.py
Lines changed: 7 additions & 0 deletions
diff --git a/‎fbgemm_gpu/codegen/split_embedding_codegen_lookup_invoker.template
Lines changed: 85 additions & 0 deletions b/‎fbgemm_gpu/codegen/split_embedding_codegen_lookup_invoker.template
Lines changed: 85 additions & 0 deletions
@@ -13,7 +13,9 @@ import fbgemm_gpu.split_embedding_codegen_lookup_invokers.lookup_lars_sgd as loo
 import fbgemm_gpu.split_embedding_codegen_lookup_invokers.lookup_partial_rowwise_adam as lookup_partial_rowwise_adam  # noqa: F401
 import fbgemm_gpu.split_embedding_codegen_lookup_invokers.lookup_partial_rowwise_lamb as lookup_partial_rowwise_lamb  # noqa: F401
 import fbgemm_gpu.split_embedding_codegen_lookup_invokers.lookup_rowwise_adagrad as lookup_rowwise_adagrad  # noqa: F401
+import fbgemm_gpu.split_embedding_codegen_lookup_invokers.lookup_rowwise_adagrad_with_counter as lookup_rowwise_adagrad_with_counter  # noqa: F401
 import fbgemm_gpu.split_embedding_codegen_lookup_invokers.lookup_sgd as lookup_sgd  # noqa: F401
 import fbgemm_gpu.split_embedding_codegen_lookup_invokers.lookup_approx_sgd as lookup_approx_sgd  # noqa: F401
 import fbgemm_gpu.split_embedding_codegen_lookup_invokers.lookup_approx_rowwise_adagrad as lookup_approx_rowwise_adagrad  # noqa: F401
+import fbgemm_gpu.split_embedding_codegen_lookup_invokers.lookup_approx_rowwise_adagrad_with_counter as lookup_approx_rowwise_adagrad_with_counter  # noqa: F401
 import fbgemm_gpu.split_embedding_codegen_lookup_invokers.lookup_rowwise_weighted_adagrad as lookup_rowwise_weighted_adagrad  # noqa: F401
@@ -646,6 +646,11 @@ def rowwise_adagrad_with_counter() -> None:
     split_precomputation = """
     at::acc_type<cache_t, true> freq = 1.0;
     at::acc_type<cache_t, true> l2_wd = 0.0;
+    at::acc_type<cache_t, true> tail_id_threshold_val = tail_id_threshold;
+    CUDA_KERNEL_ASSERT(max_counter > 0.0); // avoid divide by zero error
+    if (is_tail_id_thresh_ratio == 1){
+        tail_id_threshold_val = floorf(tail_id_threshold * max_counter);
+    }
     if (counter_halflife > 0 && threadIdx.x == 0) {
         // if id occurs multiple times in a batch, iter_delta=1
         const auto iter_delta = prev_iter[idx] == 0 ? 1.0 : iter * 1.0 - prev_iter[idx];
@@ -660,6 +665,7 @@ def rowwise_adagrad_with_counter() -> None:
     }
     freq = SHFL_SYNC(freq, 0);
     l2_wd = SHFL_SYNC(l2_wd, 0);
+    tail_id_threshold_val = SHFL_SYNC(tail_id_threshold_val, 0);
 
     at::acc_type<cache_t, true> g_local_sum_square = 0.0;
 
@@ -682,10 +688,7 @@ def rowwise_adagrad_with_counter() -> None:
     at::acc_type<cache_t, true> multiplier;
     at::acc_type<cache_t, true> adjusted_multiplier;
     at::acc_type<cache_t, true> exp_reg_correction;
-    at::acc_type<cache_t, true> tail_id_threshold_val = tail_id_threshold;
-    if (is_tail_id_thresh_ratio == 1){
-        tail_id_threshold_val = floorf(tail_id_threshold * max_counter);
-    }
+
     if (threadIdx.x == 0) {
         at::acc_type<cache_t, true> new_sum_square_grads = momentum1[idx] + g_avg_square;
         momentum1[idx] = new_sum_square_grads;
 
@@ -44,6 +44,13 @@ class OptimizerArgs(NamedTuple):
     weight_decay_mode: int
     eta: float
     momentum: float
+    counter_halflife: int
+    adjustment_iter: int
+    adjustment_ub: float
+    learning_rate_mode: int
+    grad_sum_decay: int
+    tail_id_threshold: float
+    is_tail_id_thresh_ratio: int
 
 
 class Momentum(NamedTuple):
 
@@ -36,9 +36,18 @@ def invoke(
     {% if "momentum2_dev" in args.split_function_arg_names %}
     momentum2: Momentum,
     {% endif %}
+    {% if "prev_iter_dev" in args.split_function_arg_names %}
+    prev_iter: Momentum,
+    {% endif %}
+    {% if "row_counter_dev" in args.split_function_arg_names %}
+    row_counter: Momentum,
+    {% endif %}
     {% if "iter" in args.split_function_arg_names %}
     iter: int,
     {% endif %}
+    {% if "max_counter" in args.split_function_arg_names %}
+    max_counter: float,
+    {% endif %}
 ) -> torch.Tensor:
     if (common_args.host_weights.numel() > 0):
         return torch.ops.fbgemm.split_embedding_codegen_lookup_{{ optimizer }}_function_cpu(
@@ -84,6 +93,27 @@ def invoke(
             {% if "momentum" in args.split_function_arg_names %}
             momentum=optimizer_args.momentum,
             {% endif %}
+            {% if "counter_halflife" in args.split_function_arg_names %}
+            counter_halflife=optimizer_args.counter_halflife,
+            {% endif %}
+            {% if "adjustment_iter" in args.split_function_arg_names %}
+            adjustment_iter=optimizer_args.adjustment_iter,
+            {% endif %}
+            {% if "adjustment_ub" in args.split_function_arg_names %}
+            adjustment_ub=optimizer_args.adjustment_ub,
+            {% endif %}
+            {% if "learning_rate_mode" in args.split_function_arg_names %}
+            learning_rate_mode=optimizer_args.learning_rate_mode,
+            {% endif %}
+            {% if "grad_sum_decay" in args.split_function_arg_names %}
+            grad_sum_decay=optimizer_args.grad_sum_decay,
+            {% endif %}
+            {% if "tail_id_threshold" in args.split_function_arg_names %}
+            tail_id_threshold=optimizer_args.tail_id_threshold,
+            {% endif %}
+            {% if "is_tail_id_thresh_ratio" in args.split_function_arg_names %}
+            is_tail_id_thresh_ratio=optimizer_args.is_tail_id_thresh_ratio,
+            {% endif %}
             # momentum1
             {% if "momentum1_dev" in args.split_function_arg_names %}
             momentum1_host=momentum1.host,
@@ -96,10 +126,26 @@ def invoke(
             momentum2_offsets=momentum2.offsets,
             momentum2_placements=momentum2.placements,
             {% endif %}
+            # prev_iter
+            {% if "prev_iter_dev" in args.split_function_arg_names %}
+            prev_iter_host=prev_iter.host,
+            prev_iter_offsets=prev_iter.offsets,
+            prev_iter_placements=prev_iter.placements,
+            {% endif %}
+            # row_counter
+            {% if "row_counter_dev" in args.split_function_arg_names %}
+            row_counter_host=row_counter.host,
+            row_counter_offsets=row_counter.offsets,
+            row_counter_placements=row_counter.placements,
+            {% endif %}
             # iter
             {% if "iter" in args.split_function_arg_names %}
             iter=iter,
             {% endif %}
+            # max counter
+            {% if "max_counter" in args.split_function_arg_names %}
+            max_counter=max_counter,
+            {% endif %}
         )
     else:
         return torch.ops.fbgemm.split_embedding_codegen_lookup_{{ optimizer }}_function(
@@ -151,6 +197,27 @@ def invoke(
             {% if "momentum" in args.split_function_arg_names %}
             momentum=optimizer_args.momentum,
             {% endif %}
+            {% if "counter_halflife" in args.split_function_arg_names %}
+            counter_halflife=optimizer_args.counter_halflife,
+            {% endif %}
+            {% if "adjustment_iter" in args.split_function_arg_names %}
+            adjustment_iter=optimizer_args.adjustment_iter,
+            {% endif %}
+            {% if "adjustment_ub" in args.split_function_arg_names %}
+            adjustment_ub=optimizer_args.adjustment_ub,
+            {% endif %}
+            {% if "learning_rate_mode" in args.split_function_arg_names %}
+            learning_rate_mode=optimizer_args.learning_rate_mode,
+            {% endif %}
+            {% if "grad_sum_decay" in args.split_function_arg_names %}
+            grad_sum_decay=optimizer_args.grad_sum_decay,
+            {% endif %}
+            {% if "tail_id_threshold" in args.split_function_arg_names %}
+            tail_id_threshold=optimizer_args.tail_id_threshold,
+            {% endif %}
+            {% if "is_tail_id_thresh_ratio" in args.split_function_arg_names %}
+            is_tail_id_thresh_ratio=optimizer_args.is_tail_id_thresh_ratio,
+            {% endif %}
             # momentum1
             {% if "momentum1_dev" in args.split_function_arg_names %}
             momentum1_dev=momentum1.dev,
@@ -165,9 +232,27 @@ def invoke(
             momentum2_offsets=momentum2.offsets,
             momentum2_placements=momentum2.placements,
             {% endif %}
+            # prev_iter
+            {% if "prev_iter_dev" in args.split_function_arg_names %}
+            prev_iter_dev=prev_iter.dev,
+            prev_iter_uvm=prev_iter.uvm,
+            prev_iter_offsets=prev_iter.offsets,
+            prev_iter_placements=prev_iter.placements,
+            {% endif %}
+            # row_counter
+            {% if "row_counter_dev" in args.split_function_arg_names %}
+            row_counter_dev=row_counter.dev,
+            row_counter_uvm=row_counter.uvm,
+            row_counter_offsets=row_counter.offsets,
+            row_counter_placements=row_counter.placements,
+            {% endif %}
             # iter
             {% if "iter" in args.split_function_arg_names %}
             iter=iter,
             {% endif %}
+            # max counter
+            {% if "max_counter" in args.split_function_arg_names %}
+            max_counter=max_counter,
+            {% endif %}
             output_dtype=common_args.output_dtype,
         )