训练结果复现不符合预期

作者您好！
非常感谢您的工作。我最近正在尝试复现您的训练结果，使用的训练脚本为scripts/train_judgelm/train_7b_vicuna+_4x40g_a100_judgelm_100k_full_model.sh，没有修改任何参数。
但是，训练了3轮之后，在judgelm_val_5k_gpt4.jsonl上验证的w/o reference Agreement仅仅有67.47，远远低于论文中的81.11。
我下载了您开源的7B权重，验证结果能够达到81.11的Agreement，说明我的验证过程是没有问题的。
请问作者觉得可能是什么原因导致了我的训练效果差？