HanziSimilar [形近字] 利用汉字结构和笔画序列,应用编辑距离计算形近字的相似度,主要考虑因素有:1)汉字结构,相同汉字结构的汉字相似度更高 2)最长公共子串的长度LCS,LCS越大,相似度越高 3)汉字笔画序列的差值,差值越小,相似度越高; 最终计算结果一定程度上符合人的主观感受,也提高了形近字的覆盖率。 todolist 1)增加拆字字典 2)增加近义词词典 3)增加关键词变形的拓词能力