変数使用報酬の振動 #265
shnarazk
announced in
Journal (JP)
変数使用報酬の振動
#265
Replies: 1 comment
-
一発でいきなりベストを更新(48xx)したので、こっちに乗り換えよう。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
大きな振幅から1.0に収束させるものだと思っていたけど、過学習的なものを見ていてむしろ0.995〜1.0の振幅から広げて行くもののような気がしてきた。
これは元に戻すようにも思えるが今回はsigmoid関数をつかっているので十分deep searchできるんじゃなかろうか。
さらに値が確定した後の挙動も筋が通っているような気がする。
さて、焼きなましの逆過程はうまくいくだろうか。連続焼きなましなので類するものはないのだろうか。
Beta Was this translation helpful? Give feedback.
All reactions