Have you ever encountered this issue? This is a answer from ChatGPT : 具体问题分析 关键报错位置 错误出现在 swin.py 的 image_lang_att 方法中: python 复制代码 key = key.reshape(B, self.num_heads, self.key_channels//self.num_heads, n_l) 这行代码试图对 key 张量进行变形。 张量大小计算错误 报错中的形状为 [24, 1, 96, 40],这表示目标张量需要具有 24*1*96*40=92160 个元素。但实际的张量大小为 368640,两者不匹配。 数据流向 报错发生时,key 是由 x(图像特征)、l(语言特征)以及 l_mask(语言掩码)处理后得到的。可能的问题包括: x 或 l 的形状未按照预期对齐。 num_heads 或 key_channels 的值配置不正确。