Skip to content

Commit 9707af5

Browse files
authored
Update chapter2.md
1 parent 72cdb71 commit 9707af5

File tree

1 file changed

+2
-2
lines changed

1 file changed

+2
-2
lines changed

docs/chapter2/chapter2.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -347,7 +347,7 @@ $$
347347

348348
这里我们另外引入了一个 `Q 函数(Q-function)`。Q 函数也被称为 `action-value function`**Q 函数定义的是在某一个状态采取某一个动作,它有可能得到的这个 return 的一个期望**,如式 (4) 所示:
349349
$$
350-
q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right] \tag{4}
350+
q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right] \tag{4}
351351
$$
352352
这里期望其实也是 over policy function。所以你需要对这个 policy function 进行一个加和,然后得到它的这个价值。
353353
**对 Q 函数中的动作函数进行加和,就可以得到价值函数**,如式 (5) 所示:
@@ -380,7 +380,7 @@ v^{\pi}(s)=E_{\pi}\left[R_{t+1}+\gamma v^{\pi}\left(s_{t+1}\right) \mid s_{t}=s\
380380
$$
381381
对于 Q 函数,我们也可以做类似的分解,也可以得到 Q 函数的 Bellman Expectation Equation,如式 (7) 所示:
382382
$$
383-
q^{\pi}(s, a)=E_{\pi}\left[R_{t+1}+\gamma q^{\pi}\left(s_{t+1}, A_{t+1}\right) \mid s_{t}=s, A_{t}=a\right] \tag{7}
383+
q^{\pi}(s, a)=E_{\pi}\left[R_{t+1}+\gamma q^{\pi}\left(s_{t+1}, a_{t+1}\right) \mid s_{t}=s, a_{t}=a\right] \tag{7}
384384
$$
385385
**Bellman expectation equation 定义了你当前状态跟未来状态之间的一个关联。**
386386

0 commit comments

Comments
 (0)