关于新功能top-p策略的想法 #60
KimamanaNeko
started this conversation in
Ideas
Replies: 2 comments 1 reply
-
你的超参数设置的是多少?你的二选似乎至少有epsilon/2的概率,如果epsilon过大是否会导致立直和和了的操作出现问题(我的epsilon设置的0.1,也就是会有5%的概率能和不和) |
Beta Was this translation helpful? Give feedback.
1 reply
-
如果目标是强化副露的探索,可以尝试
个人更偏好top-k(k=2)而不是top-p,因为麻将大多数情况都是二择。然后采样中单独提高了副露的选择概率,减少对其他行为的影响。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
在新的版本中我看到添加了top-p的方法。
我认为这确实能在探索效率上有很大进步。但是我认为可能在副露的探索上并不是很有效果
实际上我在v3版本已经有做过了类似的测试,结果形成了一些我从来每见到过的副露1v3统计数据
这是我在v4中的尝试
v4版本是否还能有效果我还在测试中
Beta Was this translation helpful? Give feedback.
All reactions