作者您好,为什么测试数据集中也要有mask,我的理解是文本预训练的时候mask可以增强对方面项的辨别。那到测试的数据时候为什么还需要mask掉呢。还是说在测试的时候有对数据的mask部分有特殊处理呢 