期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于连接位MinwiseHash的三者相似性估计算法 被引量:1
1
作者 袁鑫攀 盛鑫海 +2 位作者 龙军 张祖平 桂卫华 《上海交通大学学报》 EI CAS CSCD 北大核心 2014年第7期936-941,共6页
计算相似性是信息检索的一个核心基础问题,二者、三者甚至更多集合的相似性估计在相似文档检测、词语相关性、聚类、数据清理等领域有着广泛的应用.连接位Minwise Hash算法作为一种高效、准确的相似性估计算法,能够成倍地减少比对的次数... 计算相似性是信息检索的一个核心基础问题,二者、三者甚至更多集合的相似性估计在相似文档检测、词语相关性、聚类、数据清理等领域有着广泛的应用.连接位Minwise Hash算法作为一种高效、准确的相似性估计算法,能够成倍地减少比对的次数,提升算法性能.通过理论推导,给出基于连接位Minwise Hash的三者相似度无偏估计公式.实验结果显示,在样本大小k=500、相似度阈值R0=0.8时,算法的准确率和召回率均能达到95%以上,并且所需的CPU运行时间仅为b位Minwise Hash三者估计算法的50%. 展开更多
关键词 三者相似 三者相似性估计 连接位 信息检索
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部