-
题名基于聚团词的大规模文本转载识别算法
被引量:2
- 1
-
-
作者
张京阳
张华平
刘金刚
-
机构
首都师范大学计算机科学联合研究院
中国科学院计算技术研究所
北京理工大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2010年第6期1661-1663,1670,共4页
-
基金
国家863计划项目(2007AA01Z438)
中国科学院计算技术研究所2008知识创新基金资助项目
-
文摘
文本转载识别是指从大规模文本库中检测出内容相同或相近的文档集合,在热门话题检测、搜索引擎结果凝练、学术文章抄袭识别等诸多应用上,存在普遍的需求。为适应网络文本转载形式的日趋多样化,并进一步提升实用系统效率,对各种文本特征及比较算法进行了研究分析,提出了基于聚团词的大规模文本转载识别算法,即:依据词语的分布属性,识别并提取高得分聚团词用于表征文本,之后通过对文本集进行扩展线性比较与多维比较两次操作,最终筛选出转载识别结果。对比实验表明:该算法在准确率、召回率与效率上有较高的综合性能。
-
关键词
转载识别
聚团词
特征选择
扩展线性比较
向量空间模型
-
Keywords
forward detection
Agglomerate-Term (AgT)
feature selection
extensive linear comparison
Vector Space Model (VSM)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-