在Online训练中实时更新策略 #82

hyskylord · 2024-09-05T04:56:17Z

hyskylord
Sep 5, 2024

目前client.py生产样本的方式本质上借用了1v3.py的代码，但是这带来了一些有关实时性的问题：理想的情况下我希望每场对局都使用最新的策略，这意味着设置games=1（实际上目前最小值只能设置为4）。然而1v3在游戏数比较少的时候非常慢，进行4场对局和进行400场对局所需的时间基本是相同的。目前为了保证生产效率我将对局数设置为1000，这意味着模型在训练时可能使用的是数百个iter之前的策略。这可能是造成模型的遗忘问题的原因之一。我搜索了一下相关问题，似乎MonteCarlo方法不推荐使用ExperienceReplay。

想要具体实现这个想法似乎有点困难，可能的方法是：
（1）每个线程单独生产样本并写入文件，而不是等待所有对局完成后才统一写入。
（2）每隔一段时间（比如10秒）重新load weight。

Nitasurin · 2024-09-05T13:07:24Z

Nitasurin
Sep 5, 2024

数据质量是大规模在线RL的常见问题，但在Mortal中问题有所不同。
1.Q-learning algo并不需要严格保证产生轨迹的策略参数版本一定是最新的，而且对于同一个参数版本产生的轨迹没必要进行过多次的参数更新。通过增加batch size或使用梯度累加（多次计算梯度、延迟执行optimizer step更新参数）, 可以同时实现较高的游戏并行数与较低的策略参数版本差。
2.你提到的"遗忘问题"。我个人觉得是麻将的随机性、奖励函数(Suphx-style GRP,整个round所有step reward相同)、探索方式的原因。
当Agent多次探索到糟糕动作后，返回的reward会使得回合内的其他动作(主要是offline的ID动作) Q值被低估，同时又因为offline阶段 CQL algo对OOD动作的过于低估，online阶段初期被低估动作所获得的reward大概率会高于其Q值，使得其中占比较高的不良动作被显著高估。这种情况频繁发生时，agent性能会严重退化。
Mortal存储库的Boltzmann exploration与Top-p sampling并不能有效且智能地解决这个问题。当Q值分布发生改变时，需要及时更改超参才能保持一定的训练稳定性。

3 replies

hyskylord Sep 7, 2024
Author

1.落后的参数版本的负面影响是切实存在的，实际上我曾经为了保证效率使用了非常大的games参数（2000~4000），发现模型的表现很不稳定。通过增加opt_step_every确实可以提高稳定性，但是调太高也会导致模型更新速度变慢，我认为改为实时更新是有积极意义的。
2.模型的遗忘问题可以在隔壁单独讨论，在我写的实验数据中可以看到影响这一现象的超参数有很多，sampling确实是其中的一个因素但并不是唯一的。实际上我的模型性能是在Online的后期才发生退化。

adsf0427 Sep 7, 2024

作为参考，我一直使用的相当大的games(>=7200)与等效batch_size(i.e. opt_every * batch_size)， online训练较为稳定。

Nitasurin Sep 7, 2024

@hyskylord

我个人觉得相比其他改进方式，严格保证收集轨迹的参数版本与正在优化版本完全一致的做法会使训练效率的损失大于性能的改进。包含Policy Gradient的algo，数据质量对其表现的影响要比Q-learning显著得多，但在实践中通常会用Importance Sampling去提高效率。
就你贴出的Before_forgetting.json与After_6hours.json而言，我认为这两个时间点的模型并没有到Online阶段的“后期”，大量动作的Q值还处于被CQL algo明显低估的状态。在online训练前期，因Boltzmann exploration，探索主要集中于offline的ID动作(弃牌的ID动作经常不止一个)，agent能比较顺利地将稍次的动作优化成更优的动作，带来一定的性能提升。
实际上使用Policy-based与Actor-Critic系算法，在online阶段比Value-based效果要好不少，代价是需要大量的tricks才能保证训练的稳定性。好在这些tricks基本都是在现有paper中找的，超参设置也比较省心，不需要费劲心思在Value-based algo中去做各种测试。

adsf0427 · 2024-09-06T06:07:23Z

adsf0427
Sep 6, 2024

设置opt_every 与 submit_every 相等，以及force_sequential=true 能尽量保证使用的是最新的策略，实际训练中并没有观察到这样做带来的提升

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

在Online训练中实时更新策略 #82

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 2 comments 3 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Uh oh!

在Online训练中实时更新策略 #82

Uh oh!

Uh oh!

hyskylord Sep 5, 2024

Replies: 2 comments · 3 replies

Uh oh!

Uh oh!

Nitasurin Sep 5, 2024

Uh oh!

hyskylord Sep 7, 2024 Author

Uh oh!

adsf0427 Sep 7, 2024

Uh oh!

Uh oh!

Nitasurin Sep 7, 2024

Uh oh!

adsf0427 Sep 6, 2024

hyskylord
Sep 5, 2024

Replies: 2 comments 3 replies

Nitasurin
Sep 5, 2024

hyskylord Sep 7, 2024
Author

adsf0427
Sep 6, 2024