关于值函数方法和深度Q-learning方法的一些疑惑 #31
blackswordder
started this conversation in
General
Replies: 1 comment
-
|
还有就是,我看本章陈述了值函数方法的很多好处,使用更少的信息,同时有更好的泛化性能。看起来不好的地方也只是在函数选的不好时可能不是完全精确,但是表格法也是值函数方法的特例,这些观点让我一开始觉得值函数的方法应该要比前面的方法更加高级,我现在感觉这应该是一种错觉。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
我阅读到值函数一章,尤其是关于深度Q-learning时对使用双网络的手法的动机很疑惑,看到书中有这样一段解释

这里书中的解释我理解为使用两个网络的目的是为了“更好地计算梯度”,但是我还是感觉有点怪怪的,因为即使梯度计算困难应该也可以算吧,为什么一定要引入两个网络。我询问了一下deepseek,他的解释是函数逼近的Q-learning方法本身存在不稳定的问题,因为在迭代中出现了自举和非平稳目标的问题,这导致不稳定甚至发散,固定参数有利于解决这个问题。
然后我意识到其实我还是没确认一件事,那就是值函数方法到底是否合理呢?他提到的非平稳目标似乎对于所有的使用值函数的方法都存在,然后我询问前面表格法中使用的数学原理(依概率收敛的那几个定理)在这个函数逼近的情况下是否成立呢?deepseek说是不成立的。并且也让他举出了几个反例。
我首先的问题是deepseek在前面回答的这些理由是否成立呢?
然后我又意识到的问题是,在一开始的情况(机器人探索地图)中,我们面对的问题始终是对离散的有限种s的情况,并且当时使用压缩映象原理证明最优解的存在性。但是当使用的方法变成函数的情况时,假设我们面对的问题也不再是这种有限种s的情况,而是不可数甚至有一定的几何结构的无限的情况,前面提到的解的存在性是否成立呢?以及使用函数逼近这种方法的逼近(即使用随机梯度下降或者说依概率收敛)能否成立呢?有没有与之相关的数学原理呢?
Beta Was this translation helpful? Give feedback.
All reactions