Wensun/apo #96

wensun · 2025-06-23T17:19:47Z

Implementation of the new algorithm A*PO.

An example of successful run on GSM8K on mlflow: link

compose_rl/algorithms/online/callback.py

bcui-db · 2025-06-23T17:30:17Z

compose_rl/algorithms/online/callback.py

+            mean_ift = masked_mean(
+                env_outs['ift_kl'],
+                env_outs['action_mask'],
            )
-            env_outs['advantages'] = advantages
+            self.kl_ift.append(mean_ift.cpu())
+
+            iter_batch.update(env_outs)
+
+            iter_batch.update({
+                'max_gen_len':
+                    torch.ones(self.iter_batch_size).to(torch.int32) *
+                    self.max_gen_len,
+                'adv_masked_mean':
+                    torch.ones(self.iter_batch_size) * batch_adv_mean.cpu(),
+                'adv_masked_var':
+                    torch.ones(self.iter_batch_size) * batch_adv_var.cpu(),
+                'ift_kl_scalar':
+                    torch.ones(self.iter_batch_size) * self.kl_ctl.value,
+                'reward_std':
+                    torch.ones(self.iter_batch_size) *
+                    env_outs['rewards'].std().to('cpu'),
+            })
        else:
-            raise ValueError(
-                f'Invalid loss type: {self.actor_critic.loss_type}. ' +
-                'Valid options are: ppo, grpo.',
-            )
+            # APO and REBEL

-        batch_adv_mean, batch_adv_var = dist_compute_masked_mean_and_var(
-            env_outs['advantages'],
-            env_outs['action_mask'],
-        )
+            mean_ift = masked_mean(
+                env_outs['ift_kl'],
+                env_outs['action_mask'],
+            )
+            self.kl_ift.append(mean_ift.cpu())
+
+            iter_batch.update(env_outs)
+
+            iter_batch.update({
+                'max_gen_len':
+                    torch.ones(self.iter_batch_size).to(torch.int32) *
+                    self.max_gen_len,
+                'adv_masked_mean':
+                    torch.ones(self.iter_batch_size),
+                'adv_masked_var':
+                    torch.ones(self.iter_batch_size),
+                'ift_kl_scalar':
+                    torch.ones(self.iter_batch_size) * self.kl_ctl.value,
+                'reward_std':
+                    torch.ones(self.iter_batch_size) *
+                    env_outs['rewards'].std().to('cpu'),
+            })


Isn't this block of code for both algorithms very similar to each other, except for the adv_masked_mean bit? If so can we condense it?

compose_rl/algorithms/online/model.py

compose_rl/algorithms/online/model_methods.py

compose_rl/utils/rlvr_utils.py

compose_rl/algorithms/online/model_methods.py

Co-authored-by: bcui-db <141345999+bcui-db@users.noreply.github.com>

…into wensun/apo

jdchang1

Looks good to me, but will wait for others to stamp it!

wensun and others added 9 commits June 18, 2025 10:14

apo initial

5a95cab

.

d89cd64

vllm fix

1d925d2

critic free

e9dbad9

cleanup

934e864

local run

b7cb34e

added timeout in rlvr utils

28014a9

added timeout in rlvr utils

ed4e554

.

de6400c

wensun requested review from bcui-db, dakinggg, gupta-abhay, abaheti95 and jdchang1 as code owners June 23, 2025 17:19

bcui-db reviewed Jun 23, 2025

View reviewed changes

compose_rl/algorithms/online/callback.py Outdated Show resolved Hide resolved

bcui-db reviewed Jun 23, 2025

View reviewed changes

wensun force-pushed the wensun/apo branch from d37aecf to de6400c Compare June 23, 2025 17:53

wensun and others added 10 commits June 23, 2025 13:57

fix some comments issues in local yaml

6b4c385

.

b2ae469

Update compose_rl/algorithms/online/callback.py

4b51437

Co-authored-by: bcui-db <141345999+bcui-db@users.noreply.github.com>

clean comments

d4ffc59

comment cleanup

1fd7e2d

cleanup of callback

c769975

undo rlvr update

0d275ec

Merge branch 'main' into wensun/apo

d6c24d0

fix

202b0a2

Merge branch 'wensun/apo' of https://github.com/databricks/compose-rl …

fc2f835

…into wensun/apo

jdchang1 reviewed Jun 23, 2025

View reviewed changes

jdchang1 requested a review from bcui-db June 23, 2025 19:41

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Wensun/apo #96

Wensun/apo #96

Uh oh!

wensun commented Jun 23, 2025

Uh oh!

Uh oh!

bcui-db Jun 23, 2025

Uh oh!

jdchang1 Jun 23, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

jdchang1 left a comment

Uh oh!

Uh oh!

Wensun/apo #96

Are you sure you want to change the base?

Wensun/apo #96

Uh oh!

Conversation

wensun commented Jun 23, 2025

Uh oh!

Uh oh!

bcui-db Jun 23, 2025

Choose a reason for hiding this comment

Uh oh!

jdchang1 Jun 23, 2025

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

jdchang1 left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!