-
题名基于编辑距离和相似度改进的汉字字符串匹配
被引量:17
- 1
-
-
作者
邵清
叶琨
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《电子科技》
2016年第9期7-11,共5页
-
基金
国家自然科学基金资助项目(61170277)
上海市教委科研创新基金资助项目(02120557)
-
文摘
为解决中文字符串匹配精度较低的问题,提出了一种基于编辑距离和相似度改进的汉字字符串近似匹配算法,针对汉字字符串特点,使用汉字拼音和五笔编码计算;通过改进动态规划算法,能够有效提高编辑距离的计算准确度以及执行效率;再引入考虑交换问题的归一化算法,以语义编辑距离与长句长度的比值作为归一化结果,以此来提高近似匹配算法的准确度。实验结果表明,改进后算法计算的相似度质量要优于改进前的算法结果,且对提高算法效率和查全率、查准率和时间性能等指标均有明显改善,证明该算法的可行性和有效性。
-
关键词
编辑距离
相似度
归一化
中文字符串
近似匹配
-
Keywords
edit distance
similarity
normalization
Chinese character string
approximate matching
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-