题名 基于Web-Log Mining的Web文档聚类
被引量:29
1
作者
苏中
马少平
杨强
张宏江
机构
清华大学计算机科学与技术系
Simon Fraser大学
微软中国研究院
出处
《软件学报》
EI
CSCD
北大核心
2002年第1期99-104,共6页
基金
国家重点基础研究发展规划973资助项目(G1998030509)~~
文摘
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.
关键词
数据库
聚类
数据挖掘
web
文档
web -Logmining
Keywords
data bases
clustering
web mining
data mining
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于Web-Log Mining的N元预测模型
被引量:14
2
作者
苏中
马少平
杨强
张宏江
机构
清华大学计算机科学与技术系
SimonFraser大学
微软中国研究院
出处
《软件学报》
EI
CSCD
北大核心
2002年第1期136-141,共6页
基金
国家重点基础研究发展规划973资助项目(G1998030509)~~
文摘
随着Web上用户访问信息的不断增加,特别是Web服务器可提供大量的日志文件,使得有可能对这些大数据集进行知识挖掘,例如,对用户未来的访问进行预测.提出了一种利用服务器日志文件,运用N元(N-gram)预测模型对用户未来可能进行的Web访问请求进行预测.这种模型会选择性地对用户可预测的请求进行预测,从而大大提高了预测精度.实验证明,在自然语言中普遍适用的N元预测模型同样适用于网页预测.同时,采用了一种有效的简化手段,大大压缩了模型的大小,使得5元模型和传统的2元模型大小基本相同,而预测精度提高了1倍.该结果可以广泛地运用到Web上,包括网页的预发送、预取、推荐以及Web上的caching机制.试验是建立在真实的Web日志上的,该算法无论在预测精度上还是在可适用度上都优于以往的算法.
关键词
数据挖掘
INTERNET
web -Logmining
N元预测模型
网页
Keywords
web mining
data mining
prediction
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
题名 Web使用模式研究中的数据挖掘
被引量:55
3
作者
张娥
冯秋红
宣慧玉
田增瑞
机构
西安交通大学管理学院
出处
《计算机应用研究》
CSCD
北大核心
2001年第3期80-83,共4页
文摘
Web使用模式挖掘是利用Web使用数据的高级手段,是对Web使用数据的深层次分析,从而挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的知识,以帮助管理决策。综述了Web使用模式的数据挖掘研究技术的内容、现状和研究的方向。
关键词
数据挖掘
事务数据库
web
用户访问模式
INTERNET
Keywords
web usage data -mining
web usability data -mining
分类号
TP311.135
[自动化与计算机技术—计算机软件与理论]
TP393.4
[自动化与计算机技术—计算机应用技术]
题名 Web挖掘研究综述
被引量:49
4
作者
涂承胜
鲁明羽
陆玉昌
机构
重庆三峡学院计算机科学系
清华大学计算机科学技术系智能技术与系统国家重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2003年第10期90-93,共4页
文摘
论文介绍了Web挖掘的概念,指出了Web挖掘中存在的问题,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,针对每一种分类介绍了各自的研究对象、表示方法、处理方法、应用领域及最近的研究情况,同时展望了Web挖掘的未来研究方向。
关键词
web
INTERNET
搜索引擎
信息检索
数据库
数据处理
数据挖掘
Keywords
data mining ,web mining ,web content mining ,web structure mining ,web usage mining
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
题名 Web使用信息挖掘综述
被引量:50
5
作者
郭岩
白硕
于满泉
机构
中国科学院计算技术研究所软件室
中国科学院研究生院
出处
《计算机科学》
CSCD
北大核心
2005年第1期1-7,共7页
基金
中国科学院计算技术研究所领域前沿青年基金(20026180-24)
文摘
Web使用信息挖掘可以帮助我们更好地理解Web和Web用户访问模式,这对于开发Web的最大经济潜力是非常关键的。一般来说,Web使用信息挖掘包含三个阶段:数据预处理,模式发现和模式分析。文章以这三个阶段为框架,分别介绍了数据预处理的技术与困难,Web使用信息挖掘中常用的方法和算法,以及主要应用。
关键词
数据挖掘
web 挖掘
web 使用信息挖掘
web 用户访问模式
数据预处理
模式发现
Keywords
data mining
web mining
web usage mining
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 Web日志挖掘中的数据预处理技术研究
被引量:62
6
作者
赵伟
何丕廉
陈霞
谢振亮
机构
天津大学计算机科学与技术系
出处
《计算机应用》
CSCD
北大核心
2003年第5期62-64,67,共4页
基金
天津市科技发展计划项目 (0 2 3 1 0 0 51 1 )
文摘
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。
关键词
数据挖掘
web 日志挖掘
数据预处理
Keywords
data mining
web log mining
data preprocessing
分类号
TP311.138
[自动化与计算机技术—计算机软件与理论]
题名 Web挖掘研究
被引量:34
7
作者
陈新中
李岩
谢永红
杨炳儒
机构
北京科技大学信息工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2002年第13期42-44,共3页
基金
国家自然科学基金重点项目(编号:698350010)
教育部科技重点项目(编号:教技司[2000]175)
文摘
Internet的迅速发展,使得worldwideweb已经成为一个巨大的、蕴涵着具有潜在价值知识的分布式信息空间,为数据挖掘研究提供了丰富的资源的同时也提出了新的挑战。该文首先概述了数据挖掘的概念、挖掘算法及其主要应用领域,然后结合Web数据的多样性、丰富和动态的超链接信息以及Web用户访问信息,详细阐述了Web内容挖掘、Web结构挖掘和Web用户访问信息挖掘的概念、定义、主要的挖掘算法及最新研究进展,文章最后介绍了Web挖掘的研究方向和发展趋势。
关键词
数据挖掘
web
数据库
INTERNET
信息服务
Keywords
data mining ,AI ,world-wide web ,web mining
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP393.4
[自动化与计算机技术—计算机应用技术]
题名 Web大数据环境下的不一致跨源数据发现
被引量:24
8
作者
余伟
李石君
杨莎
胡亚慧
刘晶
丁永刚
王骞
机构
武汉大学计算机学院
汉口学院计算机科学与技术学院
空军预警学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第2期295-308,共14页
基金
国家自然科学基金项目(61272109)
中央高校基本科研业务费专项资金项目(2042014kf0057)
湖北省自然科学基金项目(2014CFB289)
文摘
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.
关键词
web 大数据
web 数据挖掘
数据一致性
web 数据管理
数据质量评估
跨源数据分析
Keywords
web big data
web data mining
data consistency
web data management
data quality assessment
cross-source analysis
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 Web日志挖掘中的数据预处理的研究
被引量:57
9
作者
陆丽娜
杨怡玲
管旭东
魏恒义
机构
西安交通大学计算机科学与技术系
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2000年第4期66-67,72,共3页
文摘
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍了各过程的主要任务。
关键词
数据挖掘
web
日志挖掘
数据预处理
数据库
Keywords
data mining
web log mining
data preparation
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP393
[自动化与计算机技术—计算机应用技术]
题名 Web数据挖掘
被引量:120
10
作者
王实
高文
李锦涛
机构
中国科学院计算技术研究所
出处
《计算机科学》
CSCD
北大核心
2000年第4期28-31,41,共5页
文摘
1 引言当前WWW正在深度和广度方面飞速地发展着,Internet也正在前所未有地改变我们的生活。WWW上的一些主要工作,例如Web站点设计、Web服务设计、Web站点的导航设计、电子商务等工作正变得越来越复杂和越来越繁重。从站点经营方来说,他们需要好的自动辅助设计工具,可以根据用户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,开展有针对性的电子商务以更好地满足访问者的需求。从访问者来说,他们希望看到的是个性化的页面。
关键词
电子商务
数据挖掘
数据库
web
Keywords
data mining , web mining , World-Wide web (WWW)
分类号
F716
[经济管理—产业经济]
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于分类方法的Web站点实时个性化推荐
被引量:31
11
作者
王实
高文
李锦涛
机构
中国科学院计算技术研究所
出处
《计算机学报》
EI
CSCD
北大核心
2002年第8期845-852,共8页
文摘
提出一种新的基于分类方法的实时个性化推荐方法 .该文首先根据用户访问事务文法生成序列访问事务集 ,用于得到每个用户访问的序列特性并且便于分类器进行分类 .然后利用该事务集训练一个多类分类器 .作者通过推荐引擎得到每个用户的当前访问序列和用户当前请求页面 ,然后把该序列送入分类器中进行分类 ,以得到用户的下面一些可能访问的页面 ,这些推荐页面的地址被附加到用户当前请求的页面的底部由推荐引擎返回以进行推荐 .在这种方法中 ,用户不需要注册信息 ,推荐不打扰用户 ,可以为用户提供实时个性化的服务 .实验表明这种方法是成功的 .
关键词
分类方法
web 站点
实时个性化
信息挖掘
推荐模型
网站
Keywords
web usage mining , classification, recommendation
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 Web使用挖掘:从Web数据中发现用户使用模式
被引量:21
12
作者
陈恩红
徐涌
王煦法
机构
中国科学技术大学计算机系
出处
《计算机科学》
CSCD
北大核心
2001年第5期85-88,共4页
文摘
1. 引言
在Web(因特网)上进行交易具有简易、快速、高效等特点,基于Web的电子商务正以飞快的速度发展着.尤其是面向最终用户的B2C模式的电子商务,正面临着一场革命性的改变.最新的技术已能够追踪用户的浏览行为,这就使得商家有能力为每个用户定制个性化的产品,从而出现大规模定(mass customization)的现象.以上所描述的还只是Web使用挖掘(Web Usage Mining)的一种具体应用.
关键词
web
数据库
知识发现
数据挖掘
用户使用模式
Keywords
data mining ,web mining ,web usage mining
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于Web的日志挖掘数据预处理方法的研究
被引量:33
13
作者
张健沛
刘建东
杨静
机构
哈尔滨工程大学计算机科学与技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2003年第10期191-193,共3页
基金
黑龙江省自然科学基金资助项目
文摘
随着www的广泛应用及相应的Web技术的出现,使数据挖掘的研究进入了一个新的阶段。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。论文针对基于日志的数据挖掘提出了前期的几种数据预处理方法,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了很好的算法实现。
关键词
web
日志挖掘
数据预处理
数据库
数据挖掘
知识发现
Keywords
web usage mining ,data mining ,data preprocessing
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 Web日志挖掘中数据预处理的研究
被引量:20
14
作者
赵红玲
宋瀚涛
牛振东
刘桂山
机构
北京理工大学计算机系
北京理工大学软件学院
出处
《计算机应用研究》
CSCD
北大核心
2005年第6期67-69,共3页
基金
霍英东教育基金会高等院校青年教师基金资助项目(91101)
文摘
针对框架式页面存在的问题,对数据预处理过程进行了改进,在数据清洗和用户识别部分添加了页面过滤部分,同时对预处理过程中的页面过滤算法和用户识别策略也进行了改进。
关键词
数据挖掘
web 日志挖掘
数据预处理
Keywords
data mining
web Log
data preprocessing
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 Web日志挖掘预处理中的Frame页面过滤算法
被引量:14
15
作者
杨怡玲
管旭东
尤晋元
机构
上海交通大学计算机科学与工程系
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期76-77,共2页
文摘
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式。在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法--Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。
关键词
web
日志挖掘
数据预处理
数据挖掘
FrAme页面
过滤算法
Keywords
web usage mining ;Log analysis;data preprocess;Frequently visited page groups
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
题名 Web使用挖掘数据预处理中的会话构造
被引量:11
16
作者
欧阳一鸣
汪曦东
郭骏
刘红樱
机构
合肥工业大学计算机与信息学院
出处
《计算机工程与应用》
CSCD
北大核心
2005年第25期148-151,共4页
基金
合肥工业大学科研发展基金项目资助(编号:030503F)
文摘
文章主要论述了在Web使用挖掘数据预处理中如何构造用户与网站之间的会话。首先,根据对Web服务器日志数据格式的分析,对会话概念进行了形式化描述;然后在分析目前会话构造方法的基础上,利用基于时间和引用的启发式方法来构造会话;最后依据评估会话构造方法的标准,通过实验对给出的新会话构造方法与其他方法进行了分析比较。
关键词
web 使用挖掘
数据预处理
会话构造
Keywords
web usage mining ,data preprocessing ,session construction
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP393
[自动化与计算机技术—计算机应用技术]
题名 Web使用挖掘技术研究
被引量:37
17
作者
涂承胜
陆玉昌
机构
重庆三峡学院计算机科学系
清华大学计算机科学与技术系智能技术与系统国家重点实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第7期1177-1184,共8页
基金
重庆市教委科技项目 (0 3 110 4)资助
中国国家重点基础研究发展项目"973项目"(G19980 3 0 414 )资助
文摘
简要介绍了 WEB挖掘的基本概念及其分类 ,讨论了 Web使用挖掘的有关理论及其应用 .重点分析了 Web使用挖掘的主要研究对象和研究方法 ,包括 :挖掘的数据对象、数据的采集、数据预处理、模式发现、模式分析及其相关技术 .展望了
关键词
web 挖掘
web 网络使用挖掘
数据预处理
模式发现
模式分析
Keywords
web mining
web usage mining
data preprocess
pattern discovery
pattern analysis
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 KDW综述:基于Web的数据挖掘
被引量:19
18
作者
恽爽
韩立新
董浚
陈道蓄
机构
南京大学计算机系软件新技术国家重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第1期284-286,共3页
基金
江苏省高科技产业化推进基金项目基于多服务器的信"息服务平台的研究与开发
文摘
由于Web数据所具有的半结构化特征,基于Web的数据挖掘与传统的基于数据库的数据挖掘有许多不同之处。基于Web的数据挖掘主要包括3种数据挖掘任务:对Web内容的挖掘,对Web结构的挖掘和对Web访问的挖掘。该文综述了基于Web的数据挖掘技术,并介绍了国内在这个领域的研究现状。
关键词
KDW
web
数据挖掘
知识获取
半结构化数据
数据库
Keywords
data mining
Knowledge discovery
Semi-structured data
KDW
web
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 一种Web用户行为聚类算法
被引量:20
19
作者
业宁
李威
梁作鹏
董逸生
机构
东南大学计算机科学与工程系
南京林业大学信息学院
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第7期1364-1367,共4页
基金
江苏省九五重点攻关课题 (BJ980 17-1)资助
江苏省十五高科技项目 (BJ2 0 0 10 13 )资助
校科研基金重点课题 (X0 2 -0 70 -1(Z) )资助
文摘
提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法过滤了小于指定阈值的相似度系数 ,大大缩小了数据规模 ,很好地解决了其他聚类算法 (如层次聚类 )在高维空间聚类时的“维数灾难”问题 ,最后的实验结果很好 .
关键词
web 日志
数据挖掘
聚类
相似度
Keywords
web log
data mining
clustering
similarity
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 电子商务与Web数据挖掘
被引量:47
20
作者
邹显春
谢中
周彦晖
机构
西南师范大学计算机与信息科学学院
出处
《计算机应用》
CSCD
北大核心
2001年第5期21-23,共3页
文摘
在电子商务中 ,运用数据挖掘技术对服务器上的日志文件等Web数据进行客户访问信息的Web数据挖掘 ,了解客户的访问行为 ,从而调整站点结构、市场策略等 ,使电子商务活动具有针对性。
关键词
电子商务
INTERNET
web
数据挖掘
数据源
Keywords
electronic commerce
web data mining
server log file
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
TP311.13
[自动化与计算机技术—计算机软件与理论]