By RuoChen from ZJU
# 创建Conda环境
conda create --name PPO_Tutorial python=3.10
conda activate PPO_Tutorial
# 安装依赖
conda install -r requirements.txt
git clone [your-repository-url]
cd PPO_Tutorial
conda activate PPO_Tutorial
python test.py
python train.py
输出类型 | 保存位置 | 说明 |
---|---|---|
训练好的模型 | ./models/ |
PPO策略网络和价值网络 |
训练数据 | ./data/ |
训练过程中的日志和统计数据 |
训练曲线 | ./data/ |
奖励曲线、损失曲线等 |
python test.py
- 测试结果保存在
./results
目录下 - 包含测试视频、性能指标等
.
├── models/ # 保存训练好的模型
│ ├── ppo_cartpole_model.pth # 模型
├── data/ # 训练数据和日志
│ ├── training_data.npy # 训练数据
├── results/ # 测试结果
│ ├── test_episode_1.gif # 测试动画
│ └── state_analysis.png # 测试指标
├── Utils/ # 工具函数
│ ├── netUtils_PPO.py # 构建网络
│ └── testUtils_PPO.py # 测试工具
│ └── trainUtils_PPO.py # 训练工具
├── train.py # 训练脚本
├── test.py # 测试脚本
└── requirements.txt # 项目依赖
指标 | 描述 |
---|---|
平均奖励 | 训练过程中的平均episode奖励 |
收敛速度 | 达到目标性能所需的训练步数 |
稳定性 | 训练后策略的稳定程度 |
- 调整超参数:可以在
train.py
中修改学习率、批大小等超参数 - 更换环境:支持其他 Gym 环境,只需修改环境名称
- 可视化:运行训练时会自动生成训练曲线图
如有问题,欢迎提交 Issue 或 PR!