From 7f1c3806e0f6f6376a0c179f05356a43e6d207d5 Mon Sep 17 00:00:00 2001 From: yyl31500 Date: Mon, 27 May 2024 15:12:05 +0800 Subject: [PATCH] =?UTF-8?q?Update=20=E5=BC=BA=E5=8C=96=E5=AD=A6=E4=B9=A0?= =?UTF-8?q?=E6=9E=81=E7=AE=80=E5=85=A5=E9=97=A8=E4=B8=8B=EF=BC=9A=E9=80=9A?= =?UTF-8?q?=E4=BF=97=E7=90=86=E8=A7=A3MDP=E3=80=81DP=20MC=20TC=E5=92=8CQ?= =?UTF-8?q?=E5=AD=A6=E4=B9=A0=E3=80=81=E7=AD=96=E7=95=A5=E6=A2=AF=E5=BA=A6?= =?UTF-8?q?=E3=80=81PPO.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit a下标修改 --- ...5\226\347\225\245\346\242\257\345\272\246\343\200\201PPO.md" | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git "a/\345\274\272\345\214\226\345\255\246\344\271\240\346\236\201\347\256\200\345\205\245\351\227\250\344\270\213\357\274\232\351\200\232\344\277\227\347\220\206\350\247\243MDP\343\200\201DP MC TC\345\222\214Q\345\255\246\344\271\240\343\200\201\347\255\226\347\225\245\346\242\257\345\272\246\343\200\201PPO.md" "b/\345\274\272\345\214\226\345\255\246\344\271\240\346\236\201\347\256\200\345\205\245\351\227\250\344\270\213\357\274\232\351\200\232\344\277\227\347\220\206\350\247\243MDP\343\200\201DP MC TC\345\222\214Q\345\255\246\344\271\240\343\200\201\347\255\226\347\225\245\346\242\257\345\272\246\343\200\201PPO.md" index c1b96d3..a922a6c 100644 --- "a/\345\274\272\345\214\226\345\255\246\344\271\240\346\236\201\347\256\200\345\205\245\351\227\250\344\270\213\357\274\232\351\200\232\344\277\227\347\220\206\350\247\243MDP\343\200\201DP MC TC\345\222\214Q\345\255\246\344\271\240\343\200\201\347\255\226\347\225\245\346\242\257\345\272\246\343\200\201PPO.md" +++ "b/\345\274\272\345\214\226\345\255\246\344\271\240\346\236\201\347\256\200\345\205\245\351\227\250\344\270\213\357\274\232\351\200\232\344\277\227\347\220\206\350\247\243MDP\343\200\201DP MC TC\345\222\214Q\345\255\246\344\271\240\343\200\201\347\255\226\347\225\245\346\242\257\345\272\246\343\200\201PPO.md" @@ -124,7 +124,7 @@ $`\theta \leftarrow \theta+\eta \nabla \bar{R}_{\theta}`$ > 有一点值得说明的是...,为了提高可读性,还是举个例子来说明吧。 > > 比如到80/90后上大学时喜欢玩的另一个游戏CF(即cross fire,10多年前我在东华理工的时候也经常玩这个,另一个是DNF),虽然玩的是同一个主题比如沙漠战场,但你每场的发挥是不一样的,即便玩到同一个地方(比如A区埋雷的地方),你也可能会控制角色用不同的策略做出不同的动作,比如 ->+ 在第一场游戏里面,我们在状态$`s_1`$采取动作 $`s_1`$,在状态$`s_2`$采取动作 $`a_2`$。且你在同样的状态$`s_1`$下, 不是每次都会采取动作$`a_1`$的,所以我们要记录,在状态 $`s^1_1`$ 采取 $`a^1_1`$、在状态 $`s^1_2`$采取$`a^1_1`$等,整场游戏结束以后,得到的奖励是 $`R(\tau^1)`$ +>+ 在第一场游戏里面,我们在状态$`s_1`$采取动作 $`s_1`$,在状态$`s_2`$采取动作 $`a_2`$。且你在同样的状态$`s_1`$下, 不是每次都会采取动作$`a_1`$的,所以我们要记录,在状态 $`s^1_1`$ 采取 $`a^1_1`$、在状态 $`s^1_2`$采取$`a^1_2`$等,整场游戏结束以后,得到的奖励是 $`R(\tau^1)`$ >+ 在第二场游戏里面,在状态$`s^2_1`$采取$`a^2_1`$,在状态 $`s^2_2`$采取$`a^2_2`$,采样到的就是$`\tau^2`$,得到的奖励是$`R(\tau^2)`$ > 这时就可以把采样到的数据用梯度计算公式把梯度算出来 >