RL_PROJECT

This project involves implementing reinforcement learning algorithms to solve the Cart-Pole problem. The goal is to develop and compare traditional non-deep RL algorithms and deep RL algorithms to evaluate their performance under sensor noise.

QLearning.py:

Overview

This script trains and tests a Q-Learning agent on the CartPole-v1 environment with sensor noise. It supports training, testing, and disturbance testing.

How to Run

Train the Model:

python script.py --save model.pkl --bins 16,16,16,16 --noise_std 0.1

Test the Model:

python script.py --load model.pkl --test --render

DQN.py:

Overview

This script trains and tests a Deep Q-Network (DQN) agent on the CartPole-v1 environment with sensor noise. It supports training, testing, and disturbance testing.

How to Run

Train the Model:

python script.py --save model.pth --episodes 5000 --noise_std 0.1

Test the Model:

python script.py --load model.pth --test --render

PPO.py

Overview

This script trains and tests a model-based reinforcement learning agent using Proximal Policy Optimization (PPO) for the CartPole-v1 environment with sensor noise. The training process includes collecting data, training a dynamics model, and training a policy network.

How to Run

Collect Data, Train Dynamics Model, and Train Policy:

python script.py --num_episodes 5000 --training_iterations 1000 --noise_std 0.1 --postfix my_experiment

Test a Pre-Trained Policy:

python script.py --load saved_policy_models/ppo_final_my_experiment.pth

SAC.py

Overview

This script trains and tests a Soft Actor-Critic (SAC) agent on the CartPole-v1 environment with sensor noise. It supports training, testing, and disturbance testing.

How to Run

Train the Model:

python script.py --save model.pth --episodes 5000 --noise_std 0.1

Test the Model:

python script.py --load model.pth --test --render

Name		Name	Last commit message	Last commit date
Latest commit History 50 Commits
__pycache__		__pycache__
document		document
dqn_models		dqn_models
mujoco_py_deriv		mujoco_py_deriv
noisy_observation_plots		noisy_observation_plots
q_learning_models		q_learning_models
saved_dynamics_models		saved_dynamics_models
saved_models		saved_models
saved_policy_models		saved_policy_models
walker2D		walker2D
.DS_Store		.DS_Store
Agent.py		Agent.py
DDQN.py		DDQN.py
DQN.py		DQN.py
PPO.py		PPO.py
QLearning.py		QLearning.py
README.md		README.md
SAC.py		SAC.py
clean_DQN.py		clean_DQN.py
comparison_plot_1000.png		comparison_plot_1000.png
comparison_plot_2000.png		comparison_plot_2000.png
ddqn_baseline.pth		ddqn_baseline.pth
ddqn_baseline_new.pth		ddqn_baseline_new.pth
ddqn_baseline_new_plot.png		ddqn_baseline_new_plot.png
ddqn_baseline_new_rewards.csv		ddqn_baseline_new_rewards.csv
ddqn_baseline_plot.png		ddqn_baseline_plot.png
ddqn_baseline_rewards.csv		ddqn_baseline_rewards.csv
dqn_0.99.pth		dqn_0.99.pth
dqn_0.99_epislon.pth		dqn_0.99_epislon.pth
dqn_0.99_epislon_plot.png		dqn_0.99_epislon_plot.png
dqn_0.99_epsilon_customrewardfun.pth		dqn_0.99_epsilon_customrewardfun.pth
dqn_0.99_plot.png		dqn_0.99_plot.png
dqn_20240712_152652_plot.png		dqn_20240712_152652_plot.png
dqn_20240807_021401.pth		dqn_20240807_021401.pth
dqn_baseline.pth		dqn_baseline.pth
dqn_baseline_new.pth		dqn_baseline_new.pth
dqn_baseline_new_3.pth		dqn_baseline_new_3.pth
dqn_baseline_new_3_plot.png		dqn_baseline_new_3_plot.png
dqn_baseline_new_3_rewards.csv		dqn_baseline_new_3_rewards.csv
dqn_baseline_new_4.pth		dqn_baseline_new_4.pth
dqn_baseline_new_4_plot.png		dqn_baseline_new_4_plot.png
dqn_baseline_new_4_rewards.csv		dqn_baseline_new_4_rewards.csv
dqn_baseline_new_5.pth		dqn_baseline_new_5.pth
dqn_baseline_new_5_plot.png		dqn_baseline_new_5_plot.png
dqn_baseline_new_5_rewards.csv		dqn_baseline_new_5_rewards.csv
dqn_baseline_new_plot.png		dqn_baseline_new_plot.png
dqn_baseline_new_rewards.csv		dqn_baseline_new_rewards.csv
dqn_baseline_plot.png		dqn_baseline_plot.png
dqn_baseline_rewards.csv		dqn_baseline_rewards.csv
dqn_batch_128.pth		dqn_batch_128.pth
dqn_batch_128_plot.png		dqn_batch_128_plot.png
dqn_batch_128_rewards.csv		dqn_batch_128_rewards.csv
dqn_batch_32		dqn_batch_32
dqn_batch_32.pth		dqn_batch_32.pth
dqn_batch_32_plot.png		dqn_batch_32_plot.png
dqn_batch_32_rewards.csv		dqn_batch_32_rewards.csv
dqn_batch_64.pth		dqn_batch_64.pth
dqn_batch_64_2.pth		dqn_batch_64_2.pth
dqn_batch_64_2_plot.png		dqn_batch_64_2_plot.png
dqn_batch_64_2_rewards.csv		dqn_batch_64_2_rewards.csv
dqn_batch_64_3.pth		dqn_batch_64_3.pth
dqn_batch_64_3_plot.png		dqn_batch_64_3_plot.png
dqn_batch_64_3_rewards.csv		dqn_batch_64_3_rewards.csv
dqn_batch_64_plot.png		dqn_batch_64_plot.png
dqn_batch_64_rewards.csv		dqn_batch_64_rewards.csv
dqn_best_model.pkl		dqn_best_model.pkl
dqn_decay_0.99.pth		dqn_decay_0.99.pth
dqn_decay_0.995.pth		dqn_decay_0.995.pth
dqn_decay_0.995_plot.png		dqn_decay_0.995_plot.png
dqn_decay_0.995_rewards.csv		dqn_decay_0.995_rewards.csv
dqn_decay_0.999		dqn_decay_0.999
dqn_decay_0.999.pth		dqn_decay_0.999.pth
dqn_decay_0.9995.pth		dqn_decay_0.9995.pth
dqn_decay_0.9995_plot.png		dqn_decay_0.9995_plot.png
dqn_decay_0.9995_reward1.pth		dqn_decay_0.9995_reward1.pth
dqn_decay_0.9999.pth		dqn_decay_0.9999.pth
dqn_decay_0.9999_plot.png		dqn_decay_0.9999_plot.png
dqn_decay_0.9999_rewards.csv		dqn_decay_0.9999_rewards.csv
dqn_decay_0.999_plot.png		dqn_decay_0.999_plot.png
dqn_decay_0.999_rewards.csv		dqn_decay_0.999_rewards.csv
dqn_decay_0.99_plot.png		dqn_decay_0.99_plot.png
dqn_decay_0.99_rewards.csv		dqn_decay_0.99_rewards.csv
dqn_deep_new_rewards_plot.png		dqn_deep_new_rewards_plot.png
dqn_deep_new_rewards_rewards.json		dqn_deep_new_rewards_rewards.json
dqn_lr_0.00001.pth		dqn_lr_0.00001.pth
dqn_lr_0.00001_plot.png		dqn_lr_0.00001_plot.png
dqn_lr_0.00001_rewards.csv		dqn_lr_0.00001_rewards.csv
dqn_lr_0.0001.pth		dqn_lr_0.0001.pth
dqn_lr_0.0001_plot.png		dqn_lr_0.0001_plot.png
dqn_lr_0.001.pth		dqn_lr_0.001.pth
dqn_lr_0.001_plot.png		dqn_lr_0.001_plot.png
dqn_lr_0.001_rewards.csv		dqn_lr_0.001_rewards.csv
dqn_lr_0.01.pth		dqn_lr_0.01.pth
dqn_lr_0.01_plot.png		dqn_lr_0.01_plot.png
dqn_lr_0.01_rewards.csv		dqn_lr_0.01_rewards.csv
dqn_lr_0.1.pth		dqn_lr_0.1.pth
dqn_lr_0.1_plot.png		dqn_lr_0.1_plot.png
dqn_no_stopping.pth		dqn_no_stopping.pth
dqn_no_stopping_plot.png		dqn_no_stopping_plot.png
dqn_noise_0.1.pth		dqn_noise_0.1.pth

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

RL_PROJECT

QLearning.py:

Overview

How to Run

DQN.py:

Overview

How to Run

PPO.py

Overview

How to Run

SAC.py

Overview

How to Run

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

thejerrycheng/RL_project

Folders and files

Latest commit

History

Repository files navigation

RL_PROJECT

QLearning.py:

Overview

How to Run

DQN.py:

Overview

How to Run

PPO.py

Overview

How to Run

SAC.py

Overview

How to Run

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages