-
题名一种基于超链接引导的主题搜索的主题敏感爬行方法
被引量:9
- 1
-
-
作者
蒋宗礼
徐学可
李帅
-
机构
北京工业大学计算机学院
清华大学电子工程系
-
出处
《计算机应用》
CSCD
北大核心
2008年第4期942-944,950,共4页
-
文摘
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。
-
关键词
主题爬虫
超链接引导的主题搜索
主题模型
-
Keywords
topic crawler
Hyperlink -Induced Topic Search (HITS)
topic model
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名面向垂直搜索引擎的主题提取算法
被引量:9
- 2
-
-
作者
吕林涛
陈丽萍
周红芳
-
机构
西安理工大学计算机科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第15期44-46,共3页
-
基金
陕西省自然科学基础研究计划基金资助项目(2007F52)
-
文摘
针对HITS算法对所有链接分配相等权重导致产生主题漂移的问题,提出基于计算链接价值度及Web页面语义主题相似度对链接分配合理权重的HITS改进算法,突出链接重要度的差异。实验表明,该算法的主题相关度提高了13%~42%,且较好地避免了主题漂移问题,增强了采集信息的准确性,对垂直搜索引擎的研究有重要的理论和实际应用价值。
-
关键词
HITS算法
垂直搜索引擎
超链接
主题漂移
-
Keywords
HITS algorithm
vertical search engine
hyperlink
topic drift
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名搜索引擎综合分析
被引量:18
- 3
-
-
作者
方志坚
张瑞林
童小素
-
机构
浙江理工大学软件工程研究所
-
出处
《计算机工程与设计》
CSCD
北大核心
2007年第16期4038-4041,共4页
-
文摘
随着互联网的广泛应用,搜索引擎成为了越来越多的用户从海量信息中获取知识必不可少的工具。说明了搜索引擎当前发展的现状,简述了搜索引擎的分类,基本原理和工作机制,重点分析了搜索引擎的检索技术及页面排序方法,最后介绍了搜索引擎面临的挑战和未来发展趋势。
-
关键词
搜索引擎
信息检索
排序算法
链接分析算法
超链引导的主题搜索
-
Keywords
search engine
information retrieval
ranking algorithms
PageRank
HITS
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Web链接分析的HITS算法研究与改进
被引量:6
- 4
-
-
作者
喻金平
朱桂祥
梅宏标
-
机构
江西理工大学工程研究院
江西理工大学信息工程学院
江西理工大学应用科学学院
-
出处
《计算机工程与应用》
CSCD
2013年第21期42-45,共4页
-
基金
江西省教育厅自然科学基金项目(No.GJJ12346)
-
文摘
垂直搜索引擎的主题搜索策略有基于内容评价的搜索策略和基于Web链接分析的搜索策略,其中HITS算法是一种经典的基于Web链接分析的搜索策略,其主要的缺点是容易发生主题漂移。为了最大程度地避免主题漂移,提出了一种结合网页文本分析和扩散速率改进的F-HITS算法。实验结果表明,这些改进不仅节省了系统的开销,并且提高了页面搜索的准确率。
-
关键词
垂直搜索
搜索策略
扩散速率
文本分析
超链接分析主题搜索(HITS)
-
Keywords
vertical search
search strategy
diffusion rate
text analysis
Hyperlink-lnduced Topic Search(HITS)
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名PH-MaxFlow算法发现Web社区
被引量:1
- 5
-
-
作者
郭希娟
刘静
-
机构
燕山大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第5期113-116,共4页
-
文摘
HITS是一种经典的利用链接技术计算网页权威值和中心值的算法,它能够快速发现主题相关网页,其缺点是会发生"主题偏移"现象,首先提出PHITS算法,在一定程度上抑制了这种现象的发生。运用该方法提取权威值高的页面,作为PH-MaxFlow算法的种子节点,使得发现的Web社区更精确。同时提出了一种有效的评价Web社区的标准,用这个标准对原始最大流算法和提出的PH-MaxFlow算法进行比较,从而得出PH-MaxFlow算法发现的Web社区与主题更相关。
-
关键词
WEB社区
基于超链接分析的主题搜索算法
最大流算法
-
Keywords
Web communities
Hyperlink-Induced Topic Search(HITS) algorithm
maximum flow algorithm
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于改进HITS算法的电网脆弱集合快速评估
被引量:4
- 6
-
-
作者
袁博
张文一
张雪敏
-
机构
国网河北省电力有限公司经济技术研究院
电力系统及发电设备控制和仿真国家重点实验室(清华大学电机系)
-
出处
《电力系统及其自动化学报》
CSCD
北大核心
2020年第4期145-150,共6页
-
文摘
脆弱线路在连锁故障传播中起着推波助澜的作用。为了更加全面地辨识脆弱线路,本文提出一种基于超链接诱导主题搜索算法的电网脆弱线路识别方法。首先,利用线路开断后的潮流转移量与线路容量裕度建立各线路故障转移的相关性网络。其次,利用改进超链接诱导主题搜索算法,计算相关性网络中各线路的权威值和枢纽值。最后,结合基于蒙特卡罗采样的连锁故障仿真工具,在河北南网系统中验证了所提算法得到权威值排名和枢纽值排名的有效性。与现有方法相比,该方法既能准确识别排名高的脆弱线路,又具有计算速度快的优点。
-
关键词
超链接诱导主题搜索算法
脆弱线路
连锁故障
相关性矩阵
权威值
枢纽值
-
Keywords
hyperlink-induced topic search(HITS)algorithm
vulnerable line
cascading failure
correlation matrix
authority index
hub index
-
分类号
TM7
[电气工程—电力系统及自动化]
-