s -> sp in ValueIteration (#20)

zkytony · zkytony · commit a76346950ce5 · 2022-06-16T07:59:51.000-04:00
diff --git a/pomdp_py/algorithms/value_iteration.pyx b/pomdp_py/algorithms/value_iteration.pyx
@@ -45,7 +45,7 @@ cdef class _PolicyTreeNode:
                     trans_prob = self._agent.transition_model.probability(sp, s, self.action)
                     obsrv_prob = self._agent.observation_model.probability(o, sp, self.action)
                     if len(self.children) > 0:
-                        subtree_value = self.children[o].values[s]  # corresponds to V_{oi(p)} in paper
+                        subtree_value = self.children[o].values[sp]  # corresponds to V_{oi(p)} in paper
                     else:
                         subtree_value = 0.0
                     reward = self._agent.reward_model.sample(s, self.action, sp)