Remove unused GRPO endpoint (#8354)

Ziems · web-flow · commit dae38d36d487 · 2025-06-09T11:38:14.000-07:00
diff --git a/docs/docs/tutorials/rl_multihop/index.ipynb b/docs/docs/tutorials/rl_multihop/index.ipynb
@@ -246,7 +246,6 @@
     "\n",
     "# NOTE: Training on 6 GPUs.\n",
     "train_kwargs = {\n",
-    "    \"update_interval\": 3,\n",
     "    \"per_device_train_batch_size\": 2,\n",
     "    \"gradient_accumulation_steps\": 4,\n",
     "    \"temperature\": 0.7,\n",
diff --git a/docs/docs/tutorials/rl_papillon/index.ipynb b/docs/docs/tutorials/rl_papillon/index.ipynb
@@ -275,7 +275,6 @@
     "\n",
     "# NOTE: Training on 3 GPUs.\n",
     "train_kwargs = {\n",
-    "    \"update_interval\": 3,\n",
     "    \"per_device_train_batch_size\": 8,\n",
     "    \"gradient_accumulation_steps\": 4,\n",
     "    \"temperature\": 0.7,\n",
diff --git a/dspy/clients/lm_local_arbor.py b/dspy/clients/lm_local_arbor.py
@@ -47,7 +47,6 @@ def status(self) -> TrainingStatus:
 
 class ArborReinforceJob(ReinforceJob):
     DEFAULT_TRAIN_KWARGS = {  # noqa: RUF012
-        "update_interval": 10,
         "temperature": 0.9,
         "beta": 0.04,
         "num_iterations": 1,
@@ -85,7 +84,6 @@ def __init__(self, lm: "LM", train_kwargs: GRPOTrainKwargs):
     def initialize(self):
         # TODO(GRPO Team): Set provider job ID
         num_generations = self.train_kwargs.get("num_generations")
-        update_interval = self.train_kwargs.get("update_interval", self.DEFAULT_TRAIN_KWARGS["update_interval"])
         temperature = self.train_kwargs.get("temperature", self.DEFAULT_TRAIN_KWARGS["temperature"])
         beta = self.train_kwargs.get("beta", self.DEFAULT_TRAIN_KWARGS["beta"])
         num_iterations = self.train_kwargs.get("num_iterations", self.DEFAULT_TRAIN_KWARGS["num_iterations"])
@@ -125,7 +123,6 @@ def initialize(self):
             "model": finetune_model,
             "suffix": suffix,
             "num_generations": num_generations,
-            "update_interval": update_interval,
             "temperature": temperature,
             "beta": beta,
             "num_iterations": num_iterations,
@@ -161,7 +158,7 @@ def _run_grpo_step_one_group(
         # api_key = self.lm.kwargs["api_key"]
 
         finetune_model = ArborProvider._remove_provider_prefix(self.lm.model)
-        data = {"model": finetune_model, "update_inference_model": True, "batch": train_group}
+        data = {"model": finetune_model, "batch": train_group}
         url = f"{api_base}fine_tuning/grpo/step"
         headers = {"Content-Type": "application/json"}
         response = requests.post(url, headers=headers, json=data)
@@ -186,18 +183,6 @@ def step(self, train_data: List[GRPOGroup], train_data_format: Optional[Union[Tr
         for group in train_data:
             self._run_grpo_step_one_group(group, train_data_format)
 
-    def update_model(self):
-        api_base = self.lm.kwargs["api_base"]
-
-        url = f"{api_base}fine_tuning/grpo/update_model"
-        headers = {"Content-Type": "application/json"}
-        response = requests.post(url, headers=headers)
-        assert response.status_code == 200, f"Failed to update model: {response.text}"
-
-        response = response.json()
-        current_model = response["current_model"]
-        self.lm.model = ArborProvider._add_provider_prefix(current_model)
-
     def save_checkpoint(self, checkpoint_name: str, score: Optional[float] = None):
         api_base = self.lm.kwargs["api_base"]
         url = f"{api_base}fine_tuning/grpo/checkpoint"
@@ -254,9 +239,6 @@ def __init__(self):
     @staticmethod
     def launch(lm: "LM", launch_kwargs: Optional[Dict[str, Any]] = None):
         model = ArborProvider._remove_provider_prefix(lm.model)
-        # TODO: Handle this on the server side
-        if model.startswith("huggingface/"):
-            model = model[len("huggingface/") :]
 
         api_base = lm.kwargs["api_base"]
 
diff --git a/dspy/teleprompt/grpo.py b/dspy/teleprompt/grpo.py
@@ -538,11 +538,6 @@ def compile(
 
                 job.step(train_data=train_data, train_data_format=TrainDataFormat.GRPO_CHAT)
 
-            for (lm, _), job in grpo_training_jobs.items():
-                if (train_step_idx + 1) % self.train_kwargs[lm]["update_interval"] == 0 and train_step_idx != 0:
-                    logger.info(f"Current train step is {train_step_idx + 1}. Updating the model...")
-                    job.update_model()
-
             logger.info(f"GRPO training step {train_step_idx + 1}/{self.num_train_steps} completed.")
 
             self.report_validation_metrics(