期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于聚团词的大规模文本转载识别算法 被引量:2
1
作者 张京阳 张华平 刘金刚 《计算机应用》 CSCD 北大核心 2010年第6期1661-1663,1670,共4页
文本转载识别是指从大规模文本库中检测出内容相同或相近的文档集合,在热门话题检测、搜索引擎结果凝练、学术文章抄袭识别等诸多应用上,存在普遍的需求。为适应网络文本转载形式的日趋多样化,并进一步提升实用系统效率,对各种文本特征... 文本转载识别是指从大规模文本库中检测出内容相同或相近的文档集合,在热门话题检测、搜索引擎结果凝练、学术文章抄袭识别等诸多应用上,存在普遍的需求。为适应网络文本转载形式的日趋多样化,并进一步提升实用系统效率,对各种文本特征及比较算法进行了研究分析,提出了基于聚团词的大规模文本转载识别算法,即:依据词语的分布属性,识别并提取高得分聚团词用于表征文本,之后通过对文本集进行扩展线性比较与多维比较两次操作,最终筛选出转载识别结果。对比实验表明:该算法在准确率、召回率与效率上有较高的综合性能。 展开更多
关键词 转载识别 聚团词 特征选择 扩展线性比较 向量空间模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部