期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于语言节奏的大规模文档去重算法研究 被引量:3
1
作者 陈钒 冯志勇 +1 位作者 李晓红 赵庚 《计算机工程与应用》 CSCD 北大核心 2011年第11期15-18,33,共5页
通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏。提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测。实验表明,此方法具有良... 通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏。提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测。实验表明,此方法具有良好的召回率和准确率,可以将内容完全重复的文档、部分段落内容重复的文档及打乱段落顺序重组文档的重复性均检测出来,检测精度高且占用系统资源少。 展开更多
关键词 文档重复性检测 语言节奏 标点
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部