代码复现

您好，想请问为什么C方案的结果训练的reward生成的图和论文不一样，差距很大，
![image](https://user-images.githubusercontent.com/71498057/132816818-943b2239-8257-4d55-b6cc-90bc9c5d473a.png)