-
Notifications
You must be signed in to change notification settings - Fork 420
Open
Labels
wontfixThis will not be worked onThis will not be worked on
Description
首先, Nice work!
我看评估的代码tests/model_spearman.py中, 在整个数据集上对pred和labels运行了spearmanr(x, y)方法, 数据集中的标签为1-5之间的整数, 而pred的余弦相似度为-1-1之间的连续浮点数.
由于spearman是按照秩次评估相关性的, 数据集中大量重复的label会不会导致大量等次的秩, 影响相关性的评估准确性?
一个想法, 是不是可以吧计算spearman相关性的步骤拆分成若干个小组, 每个小组里放6个label不相同的结果, 再与预测值计算相关度, 这样更能凸显出文本相似度之间的对比关系.
谢谢作者
Metadata
Metadata
Assignees
Labels
wontfixThis will not be worked onThis will not be worked on