 在对学生网络进行数据输入的时候,为什么是用图片输入的呢?mmact数据集不是视频吗?请问您是在输入进video_train_loader之前还对mmact的数据集进行过处理吗?