https://github.com/harlanhong/ICCV2023-MCNET/assets/53934887/55a5ba49-da1a-4ea2-a0b3-9f725a20f188 使用开源模型推理的效果,生成的视频,背景会受驱动视频影响,跟论文展示的效果,差别很大,是需要自己重新训练吗?