Skip to content

BGE-Reranker-Large BUG 报告(评估是否为bug) #1533

@nanbowan1718

Description

@nanbowan1718

你好
在测试中,我发现完全相同的文本间关联度,反而略低于语义高度相似但不完全一致的文本。例如:
文本 A:“资金流出金额位于 (0,25%] 区间的支出总金额”
文本 A 与自身的关联度为 0.99992736
文本 A与“资金流出金额位于 (0,25%] 区间的支出总笔数” 的关联度为 0.99992745(略高于前者)
基于此现象,我产生一个疑问:bge-reranker-large 模型在训练阶段,其数据集中是否未包含 “完全相同文本关联度为 1” 的样本?这是否是导致上述结果的原因?

附件中为相关测试的代码截图,供参考。

Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions