期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于PageRank与Bagging的主题爬虫研究 被引量:11
1
作者 张翔 周明全 +1 位作者 李智杰 董丽丽 《计算机工程与设计》 CSCD 北大核心 2010年第14期3309-3312,共4页
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进... 为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。 展开更多
关键词 主题爬虫 搜索策略 主题相关性 PAGERANK BAGGING
在线阅读 下载PDF
一种基于搜索策略的多主题信息采集方法 被引量:3
2
作者 仲兆满 李存华 +1 位作者 刘宗田 管燕 《电子学报》 EI CAS CSCD 北大核心 2014年第12期2352-2358,共7页
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置... 本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能. 展开更多
关键词 多主题信息采集 原子规则 内置搜索 通用搜索 相关性计算
在线阅读 下载PDF
基于主题相关概念和网页分块的主题爬虫研究 被引量:9
3
作者 黄仁 王良伟 《计算机应用研究》 CSCD 北大核心 2013年第8期2377-2380,2409,共5页
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接... 针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。 展开更多
关键词 主题爬虫 主题相关概念 网页分块 优先级计算 R-HITS
在线阅读 下载PDF
融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法 被引量:7
4
作者 刘景发 顾瑶平 刘文杰 《计算机应用》 CSCD 北大核心 2020年第8期2255-2261,共7页
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征... 针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。 展开更多
关键词 主题爬虫 禁忌搜索 本体 主题相关度 气象灾害
在线阅读 下载PDF
基于相关反馈的微博相似主题时序查询 被引量:2
5
作者 包红云 李秋丹 +1 位作者 宋双永 高珩 《计算机科学》 CSCD 北大核心 2013年第4期169-171,198,共4页
提出了一种基于相关反馈的微博相似主题时序查询方法。该方法通过考虑用户对不同查询结果是否满意的反馈情况,建立修改度量系数的目标函数,从而实现微博中体现用户兴趣的主题时序相似性计算,为用户提供更满意的相似主题时序查询结果。... 提出了一种基于相关反馈的微博相似主题时序查询方法。该方法通过考虑用户对不同查询结果是否满意的反馈情况,建立修改度量系数的目标函数,从而实现微博中体现用户兴趣的主题时序相似性计算,为用户提供更满意的相似主题时序查询结果。基于该方法设计了一个可视化的微博相似主题时序查询系统,在微博代表性网站-Twitter数据集上进行的实验,表明了该方法在微博背景下的相似主题时序查询中的有效性。 展开更多
关键词 微博客 主题时序 相似查询 相关反馈
在线阅读 下载PDF
词间相关性在Web检索中的新应用 被引量:3
6
作者 王树梅 金澎 《计算机工程与应用》 CSCD 北大核心 2002年第21期112-113,共2页
首先分析了以往信息检索中利用词间相关性的局限性,针对Internet检索对象是Web页面,具有篇幅较小的特点犤2犦,提出“主题关键词集合”的概念,利用词间相关性,通过计算用户查询词集合与网页主题关键词集合之间的距离,对检索结果重新排序。
关键词 WEB 信息检索 搜索引擎 词间相关性 主题关键词 INTERNET
在线阅读 下载PDF
基于自适应免疫进化算法的聚焦爬虫搜索策略 被引量:1
7
作者 刘丽杰 许楠 李盼池 《黑龙江八一农垦大学学报》 2012年第4期61-64,共4页
聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主... 聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主题相关网页数所占比例明显高于最佳搜索和广度优先搜索算法的比例,具有更高的搜索效率。 展开更多
关键词 聚焦爬虫 搜索策略 主题相关度 自适应免疫进化算法
在线阅读 下载PDF
基于预期剩余能量模型的聚焦爬行方法
8
作者 尹文科 宗士强 王珩 《计算机工程与应用》 CSCD 北大核心 2015年第24期120-125,158,共7页
如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量... 如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量。利用预期剩余能量作为链接的优先级和搜索深度限制,设计了基于预期剩余能量模型的聚焦爬行算法,并给出了关键模块的实现。实验结果显示该方法具有更强的主题网站发现能力。 展开更多
关键词 聚焦爬行 搜索方向 搜索深度 主题相关度 预期剩余能量
在线阅读 下载PDF
主题驱动的链接分析搜索算法
9
作者 李晓丽 杜振龙 《计算机工程与设计》 CSCD 北大核心 2009年第4期842-844,共3页
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移。对HITS算法进行了扩展,提出了一种主题驱动的HITS算法。该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性... 网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移。对HITS算法进行了扩展,提出了一种主题驱动的HITS算法。该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性计算,利用页面链接的拓扑结构传播页面的权威性。该算法能够搜索到与主题高耦合的结果,有效控制主题漂移,改善搜索质量。 展开更多
关键词 主题相关性 链接分析 WEB搜索 页面权威性 主题驱动
在线阅读 下载PDF
基于网页分块技术主题爬行器的实现 被引量:4
10
作者 李晓亚 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2007年第6期959-965,共7页
针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型系统Crawler1.实验结果表明,本系统性能较好,所爬网页的相关度在55%以上.
关键词 主题搜索 主题爬行 相关度分析 网页分块
在线阅读 下载PDF
基于主题词匹配频数的搜索引擎结果聚类算法 被引量:2
11
作者 胡诗未 李晓峰 徐伟 《计算机工程与科学》 CSCD 北大核心 2011年第6期130-132,共3页
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题... 搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。 展开更多
关键词 搜索结果聚类 词间语义相关度 文档相似度 主题词
在线阅读 下载PDF
基于主题相关与用户历史的网页排序算法 被引量:2
12
作者 林婷薇 莫路锋 薛晨杰 《计算机工程与设计》 北大核心 2019年第8期2265-2269,2277,共6页
基于链接结构的PageRank排序算法,存在平均分配权值、主题漂移、忽视用户兴趣等问题。针对这些问题,结合搜索词与网页关键词以及用户搜索历史与网页关键词之间的相似度,提出基于主题相关度与用户历史的PageRank改进算法THPR。通过查询... 基于链接结构的PageRank排序算法,存在平均分配权值、主题漂移、忽视用户兴趣等问题。针对这些问题,结合搜索词与网页关键词以及用户搜索历史与网页关键词之间的相似度,提出基于主题相关度与用户历史的PageRank改进算法THPR。通过查询词与网页关键词的相关性分析解决网页的相关程度,通过对用户历史搜索记录的分析,在算法中增加用户兴趣度,使PR值分配更为合理。仿真结果表明,THPR算法与PageRank算法相比,查准率与用户搜索满意度有明显提升。 展开更多
关键词 排序算法 主题相关度 用户历史搜索 相似度 用户兴趣
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部