你好
在测试中,我发现完全相同的文本间关联度,反而略低于语义高度相似但不完全一致的文本。例如:
文本 A:“资金流出金额位于 (0,25%] 区间的支出总金额”
文本 A 与自身的关联度为 0.99992736
文本 A与“资金流出金额位于 (0,25%] 区间的支出总笔数” 的关联度为 0.99992745(略高于前者)
基于此现象,我产生一个疑问:bge-reranker-large 模型在训练阶段,其数据集中是否未包含 “完全相同文本关联度为 1” 的样本?这是否是导致上述结果的原因?
附件中为相关测试的代码截图,供参考。
