期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Newshingling的相似文本检测算法
被引量:
1
1
作者
赵德平
蔡丽静
李鹏
《沈阳建筑大学学报(自然科学版)》
CAS
北大核心
2011年第4期771-775,共5页
目的构造一种新的文本查重算法,改变传统的Shingling网页去重算法,提高文本的相似度计算率,提高查准率和查全率.方法改变传统的Shingling算法,先删除文本中无意义的虚词,再根据语意对文本进行分片,进而利用文本相似度计算公式对文本相...
目的构造一种新的文本查重算法,改变传统的Shingling网页去重算法,提高文本的相似度计算率,提高查准率和查全率.方法改变传统的Shingling算法,先删除文本中无意义的虚词,再根据语意对文本进行分片,进而利用文本相似度计算公式对文本相似度进行计算.结果该算法提高了文本相似度计算的准确性,同时文本的查准率提高了10%左右,查全率提高了5%左右.结论实验表明,笔者所提算法实现简单、可行、具有良好的文本相似度计算效果,具有一定的优越性.
展开更多
关键词
空间向量模型
文本相似度
Shingling算法
分词
在线阅读
下载PDF
职称材料
基于标题与文本相似度的网页正文提取算法
被引量:
1
2
作者
苏秀芝
《科技创新与应用》
2016年第25期57-58,共2页
主题型网页标题是网页正文内容的高度概括,利于标题与正文相似性之间的关系,提出了基于标题与文本相似度的网页正文提取算法。该算法首先把网页解析成DOM树,再生成STU-DOM,接着对STU-DOM进行粗剪枝。对剪枝后的语义树通过Shingle算法对...
主题型网页标题是网页正文内容的高度概括,利于标题与正文相似性之间的关系,提出了基于标题与文本相似度的网页正文提取算法。该算法首先把网页解析成DOM树,再生成STU-DOM,接着对STU-DOM进行粗剪枝。对剪枝后的语义树通过Shingle算法对网页标题与节点文本进行切分,生成标题和节点文本词汇单元集合,利用改进后的Dice系数计算标题与文本的相似性实现网页正文提取。实验结果表明,该抽取方法准确率达到90%以上,具有可观的实用价值。
展开更多
关键词
网页去噪
DOM
STU
Shingle
DICE
在线阅读
下载PDF
职称材料
一种两阶段的多媒体教育资源网页消重方法
3
作者
杨晓娟
廖晨辉
《现代教育技术》
CSSCI
2012年第9期93-96,共4页
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的...
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的基础上提出一种可行的两阶段的多媒体教育资源网页消重方法,实验证明,通过对网页文本信息及多媒体信息分开消重,能有效地提高消重的效果。
展开更多
关键词
开放教育资源
基于签名的消重方法
基于关键词的消重方法
Shingling算法
在线阅读
下载PDF
职称材料
题名
基于Newshingling的相似文本检测算法
被引量:
1
1
作者
赵德平
蔡丽静
李鹏
机构
沈阳建筑大学理学院
沈阳建筑大学信息与控制工程学院
出处
《沈阳建筑大学学报(自然科学版)》
CAS
北大核心
2011年第4期771-775,共5页
基金
辽宁省教育厅基金项目(L2010449)
文摘
目的构造一种新的文本查重算法,改变传统的Shingling网页去重算法,提高文本的相似度计算率,提高查准率和查全率.方法改变传统的Shingling算法,先删除文本中无意义的虚词,再根据语意对文本进行分片,进而利用文本相似度计算公式对文本相似度进行计算.结果该算法提高了文本相似度计算的准确性,同时文本的查准率提高了10%左右,查全率提高了5%左右.结论实验表明,笔者所提算法实现简单、可行、具有良好的文本相似度计算效果,具有一定的优越性.
关键词
空间向量模型
文本相似度
Shingling算法
分词
Keywords
VSM
text similarity
shingling algorithm
segmentation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于标题与文本相似度的网页正文提取算法
被引量:
1
2
作者
苏秀芝
机构
湖南软件职业学院软件工程系
出处
《科技创新与应用》
2016年第25期57-58,共2页
基金
湖南省教育厅科学研究一般项目"校园网搜索引擎中网页正文提取技术的研究"(15c0745)
文摘
主题型网页标题是网页正文内容的高度概括,利于标题与正文相似性之间的关系,提出了基于标题与文本相似度的网页正文提取算法。该算法首先把网页解析成DOM树,再生成STU-DOM,接着对STU-DOM进行粗剪枝。对剪枝后的语义树通过Shingle算法对网页标题与节点文本进行切分,生成标题和节点文本词汇单元集合,利用改进后的Dice系数计算标题与文本的相似性实现网页正文提取。实验结果表明,该抽取方法准确率达到90%以上,具有可观的实用价值。
关键词
网页去噪
DOM
STU
Shingle
DICE
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种两阶段的多媒体教育资源网页消重方法
3
作者
杨晓娟
廖晨辉
机构
山东师范大学传媒学院
江西省对外联络办公室
出处
《现代教育技术》
CSSCI
2012年第9期93-96,共4页
基金
山东省高等学校科技计划项目"面向中国文化贸易领域基于语义本体的垂直搜索系统关键技术研究课题"(课题编号:J12LN20)
山东省科技攻关项目"基于本体的Flash内容管理和搜索引擎系统的研究与开发"(课题编号:2008GG30001007)资助
文摘
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的基础上提出一种可行的两阶段的多媒体教育资源网页消重方法,实验证明,通过对网页文本信息及多媒体信息分开消重,能有效地提高消重的效果。
关键词
开放教育资源
基于签名的消重方法
基于关键词的消重方法
Shingling算法
Keywords
open educational resources
elimination of duplicated web pages based on fingerprint
elimination of duplicated web pagesbased on keywords
Shingling algorithm
分类号
G40-057 [文化科学—教育学原理]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Newshingling的相似文本检测算法
赵德平
蔡丽静
李鹏
《沈阳建筑大学学报(自然科学版)》
CAS
北大核心
2011
1
在线阅读
下载PDF
职称材料
2
基于标题与文本相似度的网页正文提取算法
苏秀芝
《科技创新与应用》
2016
1
在线阅读
下载PDF
职称材料
3
一种两阶段的多媒体教育资源网页消重方法
杨晓娟
廖晨辉
《现代教育技术》
CSSCI
2012
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部