-
题名基于超链接的镜像页面比较策略研究
被引量:2
- 1
-
-
作者
杨楠
-
机构
中国人民大学信息学院
-
出处
《计算机科学》
CSCD
北大核心
2007年第7期116-119,共4页
-
基金
教育部211项目子课题的资助
-
文摘
Web中存在大量的镜像页面,这会严重影响分析的结果,并且占据大量的空间和资源,严重影响了计算的效率,因此,如何去除这些镜像页面是社区发现技术中的一个重要的问题。对基于纯链接的镜像页面去除方法[1,2]进行了分析,并证明了只需出度邻近的页面进行比较,并提出了页面邻近区域的比较方法,按照Web页面的分布理论,设计了比较策略的方法。实验结果证明,大大减少了比较的次数,提高了效率。
-
关键词
链接分析
镜像页面
页面相似度
-
Keywords
Link analysis, Duplicated pages, Page resemblance
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-