-
题名搜索引擎查询日志中的聚类算法研究
被引量:1
- 1
-
-
作者
勾海波
欧阳为民
徐春荣
-
机构
上海大学计算机工程与科学学院
上海大学计算机网络中心
-
出处
《计算机应用与软件》
CSCD
北大核心
2007年第3期145-147,共3页
-
文摘
近年来,随着网络数据挖掘技术的迅猛发展,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向。首先详细讨论了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及噪声数据对该算法的影响,指出了Chan的改进算法中的一个错误,最后提出一个新的改进算法,并且通过模拟实验对几种不同的算法进行了对比。
-
关键词
网络数据挖掘
搜索引擎查询日志
聚合式聚类
-
Keywords
Web data mining Search engine query log Agglomerative clustering
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名Web文本分类及其阻塞减少策略
被引量:1
- 2
-
-
作者
徐春荣
欧阳为民
勾海波
-
机构
上海大学计算机工程与科学学院
上海大学计算机网络中心
-
出处
《计算机应用与软件》
CSCD
北大核心
2007年第1期58-60,128,共4页
-
文摘
W eb挖掘中,根据内容对W eb文档进行分类是至关重要的一步。在W eb文档分类中一种通常的方法是层次型分类方法,这种方法采用自顶向下的方式把文档分类到一个分类树的相应类别。然而,层次型分类方法在对文档进行分类时经常产生待分类的文档在分类树的上层分类器被错误地拒绝的现象(阻塞)。针对这种现象,采用了以分类器为中心的阻塞因子去衡量阻塞的程度,并介绍了两种新的层次型分类方法,即基于降低阈值的方法和基于限制投票的方法,去改善W eb文档分类中文档被错误阻塞的情况。
-
关键词
数据挖掘
WEB挖掘
分类
-
Keywords
Data mining Web mining Classification
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-