Skip to content

蒸馏 #8

@gzoftju

Description

@gzoftju

您好,请问一下,您使用余弦相似度在蒸馏的时候tea_logit的分布是不是过于光滑了?几乎都是0.0002和0.0003。以及蒸馏时学生模型使用L2计算,与余弦不太符合。还有使用logit_y=True是为什么?放缩吗?也不对吧

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions