您好,想请问为什么C方案的结果训练的reward生成的图和论文不一样,差距很大, 