期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
12
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于PageRank与Bagging的主题爬虫研究
被引量:
11
1
作者
张翔
周明全
+1 位作者
李智杰
董丽丽
《计算机工程与设计》
CSCD
北大核心
2010年第14期3309-3312,共4页
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进...
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。
展开更多
关键词
主题爬虫
搜索策略
主题相关性
PAGERANK
BAGGING
在线阅读
下载PDF
职称材料
一种基于搜索策略的多主题信息采集方法
被引量:
3
2
作者
仲兆满
李存华
+1 位作者
刘宗田
管燕
《电子学报》
EI
CAS
CSCD
北大核心
2014年第12期2352-2358,共7页
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置...
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能.
展开更多
关键词
多主题信息采集
原子规则
内置搜索
通用搜索
相关性计算
在线阅读
下载PDF
职称材料
基于主题相关概念和网页分块的主题爬虫研究
被引量:
9
3
作者
黄仁
王良伟
《计算机应用研究》
CSCD
北大核心
2013年第8期2377-2380,2409,共5页
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接...
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。
展开更多
关键词
主题爬虫
主题相关概念
网页分块
优先级计算
R-HITS
在线阅读
下载PDF
职称材料
融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法
被引量:
7
4
作者
刘景发
顾瑶平
刘文杰
《计算机应用》
CSCD
北大核心
2020年第8期2255-2261,共7页
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征...
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。
展开更多
关键词
主题爬虫
禁忌搜索
本体
主题相关度
气象灾害
在线阅读
下载PDF
职称材料
基于相关反馈的微博相似主题时序查询
被引量:
2
5
作者
包红云
李秋丹
+1 位作者
宋双永
高珩
《计算机科学》
CSCD
北大核心
2013年第4期169-171,198,共4页
提出了一种基于相关反馈的微博相似主题时序查询方法。该方法通过考虑用户对不同查询结果是否满意的反馈情况,建立修改度量系数的目标函数,从而实现微博中体现用户兴趣的主题时序相似性计算,为用户提供更满意的相似主题时序查询结果。...
提出了一种基于相关反馈的微博相似主题时序查询方法。该方法通过考虑用户对不同查询结果是否满意的反馈情况,建立修改度量系数的目标函数,从而实现微博中体现用户兴趣的主题时序相似性计算,为用户提供更满意的相似主题时序查询结果。基于该方法设计了一个可视化的微博相似主题时序查询系统,在微博代表性网站-Twitter数据集上进行的实验,表明了该方法在微博背景下的相似主题时序查询中的有效性。
展开更多
关键词
微博客
主题时序
相似查询
相关反馈
在线阅读
下载PDF
职称材料
词间相关性在Web检索中的新应用
被引量:
3
6
作者
王树梅
金澎
《计算机工程与应用》
CSCD
北大核心
2002年第21期112-113,共2页
首先分析了以往信息检索中利用词间相关性的局限性,针对Internet检索对象是Web页面,具有篇幅较小的特点犤2犦,提出“主题关键词集合”的概念,利用词间相关性,通过计算用户查询词集合与网页主题关键词集合之间的距离,对检索结果重新排序。
关键词
WEB
信息检索
搜索引擎
词间相关性
主题关键词
INTERNET
在线阅读
下载PDF
职称材料
基于自适应免疫进化算法的聚焦爬虫搜索策略
被引量:
1
7
作者
刘丽杰
许楠
李盼池
《黑龙江八一农垦大学学报》
2012年第4期61-64,共4页
聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主...
聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主题相关网页数所占比例明显高于最佳搜索和广度优先搜索算法的比例,具有更高的搜索效率。
展开更多
关键词
聚焦爬虫
搜索策略
主题相关度
自适应免疫进化算法
在线阅读
下载PDF
职称材料
基于预期剩余能量模型的聚焦爬行方法
8
作者
尹文科
宗士强
王珩
《计算机工程与应用》
CSCD
北大核心
2015年第24期120-125,158,共7页
如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量...
如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量。利用预期剩余能量作为链接的优先级和搜索深度限制,设计了基于预期剩余能量模型的聚焦爬行算法,并给出了关键模块的实现。实验结果显示该方法具有更强的主题网站发现能力。
展开更多
关键词
聚焦爬行
搜索方向
搜索深度
主题相关度
预期剩余能量
在线阅读
下载PDF
职称材料
主题驱动的链接分析搜索算法
9
作者
李晓丽
杜振龙
《计算机工程与设计》
CSCD
北大核心
2009年第4期842-844,共3页
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移。对HITS算法进行了扩展,提出了一种主题驱动的HITS算法。该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性...
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移。对HITS算法进行了扩展,提出了一种主题驱动的HITS算法。该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性计算,利用页面链接的拓扑结构传播页面的权威性。该算法能够搜索到与主题高耦合的结果,有效控制主题漂移,改善搜索质量。
展开更多
关键词
主题相关性
链接分析
WEB搜索
页面权威性
主题驱动
在线阅读
下载PDF
职称材料
基于网页分块技术主题爬行器的实现
被引量:
4
10
作者
李晓亚
赫枫龄
左万利
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2007年第6期959-965,共7页
针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型系统Crawler1.实验结果表明,本系统性能较好,所爬网页的相关度在55%以上.
关键词
主题搜索
主题爬行
相关度分析
网页分块
在线阅读
下载PDF
职称材料
基于主题词匹配频数的搜索引擎结果聚类算法
被引量:
2
11
作者
胡诗未
李晓峰
徐伟
《计算机工程与科学》
CSCD
北大核心
2011年第6期130-132,共3页
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题...
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。
展开更多
关键词
搜索结果聚类
词间语义相关度
文档相似度
主题词
在线阅读
下载PDF
职称材料
基于主题相关与用户历史的网页排序算法
被引量:
2
12
作者
林婷薇
莫路锋
薛晨杰
《计算机工程与设计》
北大核心
2019年第8期2265-2269,2277,共6页
基于链接结构的PageRank排序算法,存在平均分配权值、主题漂移、忽视用户兴趣等问题。针对这些问题,结合搜索词与网页关键词以及用户搜索历史与网页关键词之间的相似度,提出基于主题相关度与用户历史的PageRank改进算法THPR。通过查询...
基于链接结构的PageRank排序算法,存在平均分配权值、主题漂移、忽视用户兴趣等问题。针对这些问题,结合搜索词与网页关键词以及用户搜索历史与网页关键词之间的相似度,提出基于主题相关度与用户历史的PageRank改进算法THPR。通过查询词与网页关键词的相关性分析解决网页的相关程度,通过对用户历史搜索记录的分析,在算法中增加用户兴趣度,使PR值分配更为合理。仿真结果表明,THPR算法与PageRank算法相比,查准率与用户搜索满意度有明显提升。
展开更多
关键词
排序算法
主题相关度
用户历史搜索
相似度
用户兴趣
在线阅读
下载PDF
职称材料
题名
基于PageRank与Bagging的主题爬虫研究
被引量:
11
1
作者
张翔
周明全
李智杰
董丽丽
机构
西安建筑科技大学信息与控制工程学院
西北大学信息科学与技术学院
北京师范大学信息科学与技术学院
出处
《计算机工程与设计》
CSCD
北大核心
2010年第14期3309-3312,共4页
基金
国家自然科学基金项目(60573179)
文摘
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。
关键词
主题爬虫
搜索策略
主题相关性
PAGERANK
BAGGING
Keywords
focused crawler
search
strategy
topic
relevant
PageRank
bagging
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种基于搜索策略的多主题信息采集方法
被引量:
3
2
作者
仲兆满
李存华
刘宗田
管燕
机构
淮海工学院计算机工程学院
上海大学计算机学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2014年第12期2352-2358,共7页
基金
国家自然科学基金(No.60975033
No.61273328)
文摘
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能.
关键词
多主题信息采集
原子规则
内置搜索
通用搜索
相关性计算
Keywords
multi-
topic
crawling
atomic rules
built-in
search
engines
general
search
engines
relev
ance computing
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于主题相关概念和网页分块的主题爬虫研究
被引量:
9
3
作者
黄仁
王良伟
机构
重庆大学计算机学院
出处
《计算机应用研究》
CSCD
北大核心
2013年第8期2377-2380,2409,共5页
基金
国家自然科学基金资助项目(71102065)
文摘
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。
关键词
主题爬虫
主题相关概念
网页分块
优先级计算
R-HITS
Keywords
focused crawler
topic
-related concept
page segmentation
priority computation
relevant hyperlink-induced topic search
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法
被引量:
7
4
作者
刘景发
顾瑶平
刘文杰
机构
南京信息工程大学计算机与软件学院
广东外语外贸大学信息科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2020年第8期2255-2261,共7页
基金
国家社会科学基金重大招标项目(16ZDA047)
江苏省自然科学基金资助项目(BK20181409)
广州市基础与应用基础研究项目。
文摘
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。
关键词
主题爬虫
禁忌搜索
本体
主题相关度
气象灾害
Keywords
focused crawler
Tabu
search
ontology
topic
relev
ance
meteorological disaster
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于相关反馈的微博相似主题时序查询
被引量:
2
5
作者
包红云
李秋丹
宋双永
高珩
机构
中国科学院自动化研究所复杂系统管理与控制国家重点实验室
出处
《计算机科学》
CSCD
北大核心
2013年第4期169-171,198,共4页
基金
国家自然科学基金(61172106)
北京市自然科学基金(4112062)资助
文摘
提出了一种基于相关反馈的微博相似主题时序查询方法。该方法通过考虑用户对不同查询结果是否满意的反馈情况,建立修改度量系数的目标函数,从而实现微博中体现用户兴趣的主题时序相似性计算,为用户提供更满意的相似主题时序查询结果。基于该方法设计了一个可视化的微博相似主题时序查询系统,在微博代表性网站-Twitter数据集上进行的实验,表明了该方法在微博背景下的相似主题时序查询中的有效性。
关键词
微博客
主题时序
相似查询
相关反馈
Keywords
Micro-blogging
topic
time series
Similarity
search
relev
ance feedback
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
词间相关性在Web检索中的新应用
被引量:
3
6
作者
王树梅
金澎
机构
南京理工大学计算机科学和技术系
乐山师范学院计算机科学和技术系
出处
《计算机工程与应用》
CSCD
北大核心
2002年第21期112-113,共2页
文摘
首先分析了以往信息检索中利用词间相关性的局限性,针对Internet检索对象是Web页面,具有篇幅较小的特点犤2犦,提出“主题关键词集合”的概念,利用词间相关性,通过计算用户查询词集合与网页主题关键词集合之间的距离,对检索结果重新排序。
关键词
WEB
信息检索
搜索引擎
词间相关性
主题关键词
INTERNET
Keywords
Set'(TKS),with the explore of the word's relationship,through calculate distance between the user's query and TKS,re-sort the result list.Keywords :Information Retrieval,
search
Engine,
relev
ance Between Words,
topic
Keyword
分类号
G354.4 [文化科学—情报学]
TP393.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于自适应免疫进化算法的聚焦爬虫搜索策略
被引量:
1
7
作者
刘丽杰
许楠
李盼池
机构
黑龙江八一农垦大学信息技术学院
东北石油大学计算机与信息技术学院
出处
《黑龙江八一农垦大学学报》
2012年第4期61-64,共4页
基金
黑龙江省教育厅科学技术研究资助项目(NO.11551015)
文摘
聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主题相关网页数所占比例明显高于最佳搜索和广度优先搜索算法的比例,具有更高的搜索效率。
关键词
聚焦爬虫
搜索策略
主题相关度
自适应免疫进化算法
Keywords
focused crawler
search
ing strategy
topic
relev
ancy
adaptive immune evolutionary algorithm
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于预期剩余能量模型的聚焦爬行方法
8
作者
尹文科
宗士强
王珩
机构
中国电子科技集团公司第二十八研究所信息系统工程重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2015年第24期120-125,158,共7页
文摘
如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量。利用预期剩余能量作为链接的优先级和搜索深度限制,设计了基于预期剩余能量模型的聚焦爬行算法,并给出了关键模块的实现。实验结果显示该方法具有更强的主题网站发现能力。
关键词
聚焦爬行
搜索方向
搜索深度
主题相关度
预期剩余能量
Keywords
focused crawling
search
direction
search
depth
topic
relev
ance
expected residual energy
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
主题驱动的链接分析搜索算法
9
作者
李晓丽
杜振龙
机构
南京工业大学信息科学与工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2009年第4期842-844,共3页
基金
国家自然科学基金项目(60673185)
文摘
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移。对HITS算法进行了扩展,提出了一种主题驱动的HITS算法。该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性计算,利用页面链接的拓扑结构传播页面的权威性。该算法能够搜索到与主题高耦合的结果,有效控制主题漂移,改善搜索质量。
关键词
主题相关性
链接分析
WEB搜索
页面权威性
主题驱动
Keywords
topic
relev
ance
linkage analysis
web
search
ing
pages authority
topic
-driven
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于网页分块技术主题爬行器的实现
被引量:
4
10
作者
李晓亚
赫枫龄
左万利
机构
吉林大学计算机科学与技术学院
出处
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2007年第6期959-965,共7页
基金
国家自然科学基金(批准号:60373099)
文摘
针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型系统Crawler1.实验结果表明,本系统性能较好,所爬网页的相关度在55%以上.
关键词
主题搜索
主题爬行
相关度分析
网页分块
Keywords
topic
-specific
search
focused crawling
relev
ance analysis
page segmentation
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于主题词匹配频数的搜索引擎结果聚类算法
被引量:
2
11
作者
胡诗未
李晓峰
徐伟
机构
四川大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2011年第6期130-132,共3页
基金
国家自然科学基金资助项目(60736046)
文摘
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。
关键词
搜索结果聚类
词间语义相关度
文档相似度
主题词
Keywords
search
results clustering
semantic
relev
ance between words
document similarity
topic
word
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于主题相关与用户历史的网页排序算法
被引量:
2
12
作者
林婷薇
莫路锋
薛晨杰
机构
浙江农林大学信息工程学院
出处
《计算机工程与设计》
北大核心
2019年第8期2265-2269,2277,共6页
文摘
基于链接结构的PageRank排序算法,存在平均分配权值、主题漂移、忽视用户兴趣等问题。针对这些问题,结合搜索词与网页关键词以及用户搜索历史与网页关键词之间的相似度,提出基于主题相关度与用户历史的PageRank改进算法THPR。通过查询词与网页关键词的相关性分析解决网页的相关程度,通过对用户历史搜索记录的分析,在算法中增加用户兴趣度,使PR值分配更为合理。仿真结果表明,THPR算法与PageRank算法相比,查准率与用户搜索满意度有明显提升。
关键词
排序算法
主题相关度
用户历史搜索
相似度
用户兴趣
Keywords
PageRank
topic
relevant
user
search
history
similarity
user interest
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于PageRank与Bagging的主题爬虫研究
张翔
周明全
李智杰
董丽丽
《计算机工程与设计》
CSCD
北大核心
2010
11
在线阅读
下载PDF
职称材料
2
一种基于搜索策略的多主题信息采集方法
仲兆满
李存华
刘宗田
管燕
《电子学报》
EI
CAS
CSCD
北大核心
2014
3
在线阅读
下载PDF
职称材料
3
基于主题相关概念和网页分块的主题爬虫研究
黄仁
王良伟
《计算机应用研究》
CSCD
北大核心
2013
9
在线阅读
下载PDF
职称材料
4
融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法
刘景发
顾瑶平
刘文杰
《计算机应用》
CSCD
北大核心
2020
7
在线阅读
下载PDF
职称材料
5
基于相关反馈的微博相似主题时序查询
包红云
李秋丹
宋双永
高珩
《计算机科学》
CSCD
北大核心
2013
2
在线阅读
下载PDF
职称材料
6
词间相关性在Web检索中的新应用
王树梅
金澎
《计算机工程与应用》
CSCD
北大核心
2002
3
在线阅读
下载PDF
职称材料
7
基于自适应免疫进化算法的聚焦爬虫搜索策略
刘丽杰
许楠
李盼池
《黑龙江八一农垦大学学报》
2012
1
在线阅读
下载PDF
职称材料
8
基于预期剩余能量模型的聚焦爬行方法
尹文科
宗士强
王珩
《计算机工程与应用》
CSCD
北大核心
2015
0
在线阅读
下载PDF
职称材料
9
主题驱动的链接分析搜索算法
李晓丽
杜振龙
《计算机工程与设计》
CSCD
北大核心
2009
0
在线阅读
下载PDF
职称材料
10
基于网页分块技术主题爬行器的实现
李晓亚
赫枫龄
左万利
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2007
4
在线阅读
下载PDF
职称材料
11
基于主题词匹配频数的搜索引擎结果聚类算法
胡诗未
李晓峰
徐伟
《计算机工程与科学》
CSCD
北大核心
2011
2
在线阅读
下载PDF
职称材料
12
基于主题相关与用户历史的网页排序算法
林婷薇
莫路锋
薛晨杰
《计算机工程与设计》
北大核心
2019
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部