Author: Z.R.Wang
Date: Aug 20 - ? , 2024
Location: Yanshan University
Email: wangzhanran@stumail.ysu.edu.cn
-
强化学习的数学原理 (西湖大学赵世钰老师)
老师讲得真好,我哭死
-
动手学强化学习
-
强化学习(第二版)
RL_algo为经过学习并参考一些代码所编写的 DRL&RL 代码库
包含了基于模型的model_based方法和基于数据的model_free方法
model_free方法又分为了基于价值的value_based方法和基于策略的policy_based方法
model_based
- DynaQ.py : Dyna-Q
- value_policy_iteration.py : 策略迭代policy iteration, 值迭代value iteration, 截断策略迭代Truncated policy iteration
model_free
policy_based
- Policy_gradient.py :
value_based
- TD_learning_table.py : 基于表格的时序差分方法,包含了 Sarsa, Expected Sarsa, n step Sarsa, Q learning 算法
- TD_learning_fun.py : 基于函数近似(approximate function)的时序差分方法,包括 DQN , CNN DQN , Double DQN , Dueling DQN 算法
env
- grid_world.py : grid world 环境 : 用的赵世钰老师编写的,根据自己编写的函数更改了一些函数
- arguments.py : 环境参数
井字游戏,强化学习(第二版)中的,蛮好玩的
参考文献,包含了一些经典文献和本项目参考的书籍
- grid_world_example.py :
本项目包含多个 Jupyter Notebook 文件,用于展示和测试不同的强化学习算法。
- DynaQ_example.ipynb :
- policy_iteration_example1.ipynb :
- policy_iteration_example2.ipynb :
- TD_learning_fun_example.ipynb :
- TD_learning_table_example.ipynb :
- ten_armed_testbed.ipynb :