题名 Web日志的高效多能挖掘算法
被引量:115
1
作者
宋擒豹
沈钧毅
机构
西安交通大学计算机科学与技术系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第3期328-333,共6页
基金
国家"八六三"高技术研究发展计划基金资助!(86 3 -3 0 6 -ZD-0 2 -0 2
86 3 -3 0 6 -QN2 0 0 0 -5 )
文摘
通过对 Web服务器日志文件和客户交易数据进行分析 ,可以发现相似客户群体、相关 Web页面和频繁访问路径 .提出了一种新颖的 Web日志挖掘算法 .在该算法中 ,首先以 Web站点 URL 为行、以 User ID为列建立URL- User ID关联矩阵 ,元素值为用户的访问次数 ,然后 ,对列向量进行相似性分析得到相似客户群体 ,对行向量进行相似性度量获得相关 Web页面 ,对后者再进一步处理还可以发现频繁访问路径 .
关键词
电子商务
web
日志挖掘
INTERNET
数据挖掘
算法
Keywords
customers clustering, web pages clustering, frequent access path s, web log mining, E business
分类号
F713.36
[经济管理—产业经济]
题名 基于模糊聚类的Web浏览路径分析方法
被引量:3
2
作者
王勇
张伟
陈军
机构
重庆教育学院计算机与现代教育技术系
出处
《计算机工程与设计》
CSCD
北大核心
2007年第6期1484-1485,F0003,共3页
文摘
在Web挖掘研究中,传统硬聚类技术常被用来分析网站浏览者对网页的浏览偏好。然而该方法只能将每一用户浏览路径归类到单一群组中,即事先假设每一浏览路径只包含单一种用户偏好,却忽略了同一用户浏览路径可能包含多个网页偏好。针对这种情况,提出用模糊聚类技术取代传统的硬聚类技术以弥补不足,使聚类结果更符合实际浏览情况。
关键词
数据挖掘
web 挖掘
web 浏览路径
模糊聚类
个性化
Keywords
data mining
web mining
web access path
fuzzy clustering
personalization
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 持久偏爱的Web用户访问路径信息挖掘方法
被引量:5
3
作者
朱志国
邓贵仕
机构
大连理工大学系统工程研究所
东北财经大学
出处
《情报学报》
CSSCI
北大核心
2010年第2期208-214,共7页
基金
国家自然科学基金项目(70671016)资助.
文摘
现有的Web用户访问路径信息发现方法大都着眼于从静态的Web日志快照中进行挖掘。本文力图从Web访问数据的历史演变过程中,发现新的知识——持久偏爱的Web用户访问路径PP-WAP。PP-WAP实际上是历史访问序列WAS中大部分时间支持度值波动很小且保持较高的访问路径信息。本文首先介绍了相关背景和PP-WAP的应用领域。接下来,利用无序树结构来表示历史WAS集合,同时给出了PP—WAP的定义和挖掘算法描述。最后,分别针对模拟和实际数据集对算法的可扩展性以及PP-WAP的应用价值作了实验分析。
关键词
数据挖掘
web 访问路径
动态数据挖掘
Keywords
data mining, web access path s mining, dynamic data mining
分类号
G250.76
[文化科学—图书馆学]
题名 Web用户访问路径的差异性度量方法研究
被引量:2
4
作者
朱兴亮
游中胜
王勇
机构
重庆交通大学管理学院
重庆师范大学数学与计算机学院
重庆教育学院计算机与现代教育技术系
出处
《计算机科学》
CSCD
北大核心
2006年第7期104-106,共3页
文摘
Web站点个性化已经成为当前研究的一个热点,人们通过各种方法,对网站内容、结构、用户行为等进行数据挖掘,建立用户兴趣模型,为网站用户提供更好的服务,加强网站的竞争力。在当前网站个性化的方法中,基于用户行为分析的方法是最具有竞争力的一类方法。对Web用户行为进行分析用得较多的技术是对Web用户访问路径进行聚类以发现有意义的模式。而良好聚类的前提是有效地度量Web用户访问路径的差异性。针对这个问题,提出了一种新的Web用户访问路径差异性度量方法,通过模拟实验也验证了方法的正确性。
关键词
web 使用挖掘
web 访问路径
聚类
个性化
Keywords
web usage mining, web access path , Clustering, Personalization
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
TP393
[自动化与计算机技术—计算机应用技术]
题名 一种基于路径聚类的Web用户访问模式发现算法
被引量:10
5
作者
马力
焦李成
刘国营
机构
西安电子科技大学雷达信号处理国家重点实验室
西安邮电学院信息中心
出处
《计算机科学》
CSCD
北大核心
2004年第8期140-141,172,共3页
基金
陕西省自然科学基金(2002F26)基金资助
文摘
本文在将用户对 Web 站点访问行为表示成用户访问事务基础上,给出有关兴趣度、相似度、聚类中心定义,提出基于 ISODATA 算法的路径聚类方法,并对实际网站 Web 日志文件进行实验,结果表明该方法不但能够发现群体用户访问模式,而且还得到较为合理的模式聚类个数。
关键词
web
事务
ISODATA算法
用户访问模式
路径聚类
Keywords
web
Transaction
path cluster
ISODATA algorithm
Customer access model
分类号
TP393.01
[自动化与计算机技术—计算机应用技术]
题名 Web日志挖掘中数据预处理技术的研究
被引量:19
6
作者
马瑞民
李向云
机构
大庆石油学院计算机与信息技术学院
出处
《计算机工程与设计》
CSCD
北大核心
2007年第10期2358-2360,共3页
文摘
在Web日志挖掘中数据预处理是整个挖掘过程的基础,由于客户端缓存的存在,在已往的预处理过程中都是通过路径补充技术得到用户完整的访问路径之后,才能进行事务识别。提出了一种只需根据网站的拓扑结构,不需要使用路径补充技术,由用户访问序列直接生成事务的算法。
关键词
web 日志挖掘
数据预处理
路径补充
访问序列
访问事务
Keywords
web log mining
data preprocessing
path completion
access ed session
access ed transaction
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP393
[自动化与计算机技术—计算机应用技术]
题名 Web用户聚类中访问路径差异性度量方法的研究
7
作者
牛晓晨
王劲松
邢高峰
机构
西安邮电大学计算机学院
出处
《计算机应用与软件》
CSCD
北大核心
2013年第3期196-199,共4页
文摘
用户访问路径是Web用户聚类时度量用户兴趣度的参数之一。结合日志记录的特点,从参数的数学特征出发,设计一种基于二进制数表示的访问路径矩阵来度量用户的兴趣度,并给出新的相异度矩阵构造法。实验表明,所提出的访问路径矩阵是可行的,生成的相异度矩阵在表现用户访问路径差异上是准确的。
关键词
web 用户聚类
访问路径矩阵
相异度矩阵
日志文件
Keywords
web users clustering access path matrix Dissimilarity matrix Log files
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 Web日志中RCFA路径的挖掘方法
8
作者
许晓东
李柯
朱士瑞
机构
南京理工大学计算机科学与技术学院
江苏大学网络中心
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第22期55-57,共3页
基金
江苏省教育厅高校科学研究基金资助项目(03KJD520073)
文摘
研究从Web日志中快速挖掘出可重复连续频繁访问路径的方法。针对现有挖掘算法存在的一些问题,将矩阵应用于挖掘过程中,给出CA矩阵的概念,并利用该矩阵来挖掘可重复连续挖掘频繁访问路径,从而无需多次扫描数据库,避免产生庞大的中间项,从一定程度上简化了挖掘过程。实验表明该算法的准确性和高效性。
关键词
web 日志
连续频繁访问路径
CA矩阵
中间项
Keywords
web log
continiuous frequent access path
Continuous access (CA) matrix
intermediate item
分类号
TP393.07
[自动化与计算机技术—计算机应用技术]
题名 基于MFP方法的Web用户访问模式的模式发现
9
作者
吕橙
魏楚元
张瀚韬
机构
北京建筑工程学院计算机科学与技术系
出处
《计算机应用》
CSCD
北大核心
2007年第3期565-569,共5页
基金
北京市教委科技发展计划项目(KM200510016002)
文摘
针对Web用户访问模式问题,采用最大频繁访问路径(MFP)方法可以挖掘出更有普遍意义的模式。给出一种新的用户访问模式树WUAP-tree结构,并采用E-OEM模型,综合考虑了页面拓扑结构及用户浏览路径等多个数据源,进一步提出了一种Web访问模式挖掘算法WUAP-mine。该算法不用产生候选集和递归,只对事务数据库进行一次扫描,对WUAP-tree结构进行深度优先遍历一次,就可从WUAP-tree结构上直接查询出Web用户频繁访问模式。最后,从理论和实践上推导和验证了它的有效性和高效性。
关键词
web 用户访问模式
最大频繁访问路径方法
点击流
Keywords
web user access pattern
Maximal Frequent path (MFP) method
click-stream
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 Web站点的路径聚类研究
被引量:1
10
作者
卢群
张忠能
机构
上海交通大学电子信息与电气工程学院
出处
《计算机应用与软件》
CSCD
北大核心
2008年第8期205-206,226,共3页
文摘
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息。介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性。
关键词
web 访问信息
访问兴趣
聚类路径
Keywords
web access information access interest path clustering
分类号
TP393
[自动化与计算机技术—计算机应用技术]
TP393.4
[自动化与计算机技术—计算机应用技术]
题名 一种从Web日志中挖掘用户浏览偏爱路径的算法
被引量:1
11
作者
杨旭东
机构
吕梁学院计算机科学与技术系
出处
《重庆理工大学学报(自然科学)》
CAS
2012年第10期82-88,共7页
基金
吕梁学院校内自然科学基金资助项目(ZRXN201215)
文摘
针对当前Web站点设计与管理的复杂性以及优化其拓扑结构的需要,提出了一种从Web日志中挖掘用户浏览偏爱路径的算法。该算法引入反映页面浏览频率的访问矩阵与支持-偏爱度,得到访问矩阵行向量间的Hamming距离矩阵,将相似性阈值与其元素值逐一比较,获得候选兴趣子路径2-项集,根据支持-偏爱度阈值,将子路径集中不符的子路径剔除,合并子路径,生成用户浏览偏爱路径。实验结果证明了该算法的有效性。
关键词
浏览偏爱路径
站点访问矩阵
支持-偏爱度
HAMMING距离
web 日志挖掘
Keywords
preferred browsing path s
user access matrix
support-preference
Hamming distance
web log mining
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
题名 电子商务站点中的频繁查找路径挖掘技术
被引量:2
12
作者
边小勇
张晓龙
机构
武汉科技大学计算机科学与技术学院
出处
《武汉科技大学学报》
CAS
2006年第4期388-390,共3页
基金
湖北省自然科学基金资助项目(2004D006)
文摘
W eb上用户行为的挖掘是W eb日志挖掘的重要内容,挖掘到的查找路径能够提供决策支持。分析频繁项集挖掘和路径挖掘的不同之处,提出了类Apriori算法,使之适用于路径挖掘,然后在VC++中针对预处理过的日志数据进行实验分析,获得了一些可信度高的关联页面,这些页面关联信息将有助于改进商业站点结构,提高站点的访问率。
关键词
web 挖掘
查找路径
类Apriori
Keywords
web mining
access ed path
similar Apriori
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 网络用法挖掘及其应用
13
作者
张海强
张永
机构
兰州理工大学电气工程与信息工程学院
出处
《兰州理工大学学报》
CAS
北大核心
2004年第5期96-100,共5页
基金
甘肃省自然科学基金(ZS022 A25 035)
文摘
介绍了数据挖掘、网络挖掘和网络用法挖掘技术的理论发展及其它们在实际中的应用情况,并在挖掘算法的改善提高过程中进行了探索性的研究.为了有效地帮助Web站点管理员管理Web站点,帮助商家调整整个市场策略,提出了一种在给定的Web日志中利用事务数据库中的挖掘序列模式的方法来发现所有的大访问路径的算法.结果证明该算法是行之有效的.
关键词
数据挖掘
知识发现
web 数据挖掘
聚类
关联性分析
大访问路径
Keywords
data mining
knowledge discovery
web data mining
clustering
association analysis
major access path
分类号
TP311
[自动化与计算机技术—计算机软件与理论]