期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于Newshingling的相似文本检测算法 被引量:1
1
作者 赵德平 蔡丽静 李鹏 《沈阳建筑大学学报(自然科学版)》 CAS 北大核心 2011年第4期771-775,共5页
目的构造一种新的文本查重算法,改变传统的Shingling网页去重算法,提高文本的相似度计算率,提高查准率和查全率.方法改变传统的Shingling算法,先删除文本中无意义的虚词,再根据语意对文本进行分片,进而利用文本相似度计算公式对文本相... 目的构造一种新的文本查重算法,改变传统的Shingling网页去重算法,提高文本的相似度计算率,提高查准率和查全率.方法改变传统的Shingling算法,先删除文本中无意义的虚词,再根据语意对文本进行分片,进而利用文本相似度计算公式对文本相似度进行计算.结果该算法提高了文本相似度计算的准确性,同时文本的查准率提高了10%左右,查全率提高了5%左右.结论实验表明,笔者所提算法实现简单、可行、具有良好的文本相似度计算效果,具有一定的优越性. 展开更多
关键词 空间向量模型 文本相似度 Shingling算法 分词
在线阅读 下载PDF
基于标题与文本相似度的网页正文提取算法 被引量:1
2
作者 苏秀芝 《科技创新与应用》 2016年第25期57-58,共2页
主题型网页标题是网页正文内容的高度概括,利于标题与正文相似性之间的关系,提出了基于标题与文本相似度的网页正文提取算法。该算法首先把网页解析成DOM树,再生成STU-DOM,接着对STU-DOM进行粗剪枝。对剪枝后的语义树通过Shingle算法对... 主题型网页标题是网页正文内容的高度概括,利于标题与正文相似性之间的关系,提出了基于标题与文本相似度的网页正文提取算法。该算法首先把网页解析成DOM树,再生成STU-DOM,接着对STU-DOM进行粗剪枝。对剪枝后的语义树通过Shingle算法对网页标题与节点文本进行切分,生成标题和节点文本词汇单元集合,利用改进后的Dice系数计算标题与文本的相似性实现网页正文提取。实验结果表明,该抽取方法准确率达到90%以上,具有可观的实用价值。 展开更多
关键词 网页去噪 DOM STU Shingle DICE
在线阅读 下载PDF
一种两阶段的多媒体教育资源网页消重方法
3
作者 杨晓娟 廖晨辉 《现代教育技术》 CSSCI 2012年第9期93-96,共4页
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的... 随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的基础上提出一种可行的两阶段的多媒体教育资源网页消重方法,实验证明,通过对网页文本信息及多媒体信息分开消重,能有效地提高消重的效果。 展开更多
关键词 开放教育资源 基于签名的消重方法 基于关键词的消重方法 Shingling算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部