Replies: 2 comments 3 replies
-
数据质量是大规模在线RL的常见问题,但在Mortal中问题有所不同。 |
Beta Was this translation helpful? Give feedback.
-
设置opt_every 与 submit_every 相等,以及force_sequential=true 能尽量保证使用的是最新的策略,实际训练中并没有观察到这样做带来的提升 |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
目前client.py生产样本的方式本质上借用了1v3.py的代码,但是这带来了一些有关实时性的问题:理想的情况下我希望每场对局都使用最新的策略,这意味着设置games=1(实际上目前最小值只能设置为4)。然而1v3在游戏数比较少的时候非常慢,进行4场对局和进行400场对局所需的时间基本是相同的。目前为了保证生产效率我将对局数设置为1000,这意味着模型在训练时可能使用的是数百个iter之前的策略。这可能是造成模型的遗忘问题的原因之一。我搜索了一下相关问题,似乎MonteCarlo方法不推荐使用ExperienceReplay。
想要具体实现这个想法似乎有点困难,可能的方法是:
(1)每个线程单独生产样本并写入文件,而不是等待所有对局完成后才统一写入。
(2)每隔一段时间(比如10秒)重新load weight。
Beta Was this translation helpful? Give feedback.
All reactions