Web日志中用户频繁路径快速挖掘算法被引量：12

A Fast Algorithm for Mining User Frequent Paths from Web Logs

在线阅读下载PDF

导出

摘要 Web访问志中含有大量用户浏览信息,从中有效挖掘出用户频繁路径是建立自适用化网站的必要前提。该文在Apriori算法和有向图存储结构的基础上,提出了会话矩阵和遍历矩阵的概念,设计了用户频繁路径快速挖掘算法:首先利用会话矩阵筛选出满足一定阈值条件的频繁一项集,这样避免产生大量中间项;然后在相似客户群体内,对页面快速聚类,得到相关联页面;最后根据遍历矩阵对相关联页面进行路径合并,得出频繁路径。实验表明此算法的准确性和快速性。 Web logs contain a lot of user browsing information,it＇s necessary condition for creating adaptive web sites. On the analysis of Apriori algorithm and graphic storage organization,This paper proposes Session Matrix and Trace Matrix,designs a fast algorithm for mining user frequent paths：Firstly,Frequent 1-1tem Set which match the criteria of certain threshold is filtered ouffrom web access logs by Session Matrix,which avoids generating a great dealof intermediate items;Then we can get relative pages by clustering pages fast in similar customer groups;Finally,all the relative pages is combined by Trace Matrix,which generates Frequent PathsoExperiments show the accuracy and fast of the algorithm.

作者杜家强韩其睿王科杜家兴

机构地区天津工业大学计算机应用与自动化学院人民日报社网络中心

出处《计算机工程与应用》 CSCD 北大核心 2005年第22期164-167,共4页 Computer Engineering and Applications

关键词会话矩阵遍历矩阵相关联页面用户频繁路径快速挖掘算法 session matrix,trace matrix,relative pages,user frequent paths,fast mining algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

作者简介杜家强（1979-）,男,硕士研究生,研究方向为计算机网络,数据挖掘 .E-mail：djqluck@peopledaily．com．cn韩其睿（1957-），男，教授，硕士生导师，研究方向为计算机图形处理，软件。王科（1978-），硕士研究生，研究方向为网络通讯，模式识别。杜家兴（1976-），男，网络工程师，研究方向为网络安全。

引文网络
相关文献

参考文献8

1宋擒豹,沈钧毅.Web日志的高效多能挖掘算法[J].计算机研究与发展,2001,38(3):328-333. 被引量：115
2Anand S S,Patrick A R,Hughes J G.A data Mining methodology for cross-sales[J].Knowledge Based Systems Journal, 1998; 10(7) :449～461.
3Mobasher B,Srivastava J.Data preparation for mining world wide web browing patterns [ J ].Knowledge and Information System, 1999;1(1):5～32.
4Srikant Rt, Agrawal R.Mining generalized association rules [ C ].In:Proceedings of the 21st International Conference on Very Large DataBase, Switzerland, 1995: 407～419.
5Karunap Joshi,Nupam Joshi,Elena Yesha. On Using Warehouse to Analyze Web Logs[J].Distributed and Parallel Databases,2003;13:61～180.
6Qiang Yang,Joshua Zhexue Huang,Michael NG.A Data Cube Model for Prediction-Based Web Prefetchingp [J ] .Journal of Intelligent Information Systems, 2003; 20 ( 1 ): 11～30.
7邢东山,沈钧毅,宋擒豹.从Web日志中挖掘用户浏览偏爱路径[J].计算机学报,2003,26(11):1518-1523. 被引量：87
8Jiawei Han,Micheline Kamber. Data Mining Concepts and Techniques [M].Beijing:China Machine Press,2003-09.

二级参考文献13

1Zaiane O R，Proc Advances Digital Libraries Conf，1998年，19页
2Chen M S，Proc of the 16th Int Conf Distributed Computing Systems，1996年，385页
3Mobasher B，Tech Rep:TR96，1996年
4Anand S S, Patrick A R, Hughes J G. A data mining methodology for cross-sales. Knowledge Based Systems Journal, 1998,10(7):449～461
5Park J S, Chen M S, Yu P S. Using A hash-based method with transaction trimming for mining association rules. IEEE Transactions on Knowledge and Data Eng., 1997, 9(5):813～825
6Bfichner A G, Baumgarten M, Artand S S. Navigation pattern discovery from internet data. In: Proceedings of the 5th ACM International Conference on Knowledge Discovery and Data Mining (WEBKDD′99 Workshop) (SIGKDD′99), New York, 1999.25～30
7Srikant R, Agrawal R. Mining generalized association rules. In: Proceedings of the 21st International Conference Very Large DataBase, Switzerland, 1995. 407～419
8Srikant R, Agrawal R. Mining quantitative association rules in large relational tables. In: Proceedings of the ACM SIGMOD, Canada, 1996.1～12
9Yang D L, Yang S H, Hong M C. An efficient web mining for session path patterns. In: Proceedings of International Computer Symposium 2000, Workshop on Software Eng. and Database Systems, Taiwan, 2000. 107～113
10Brin S, Motwani R, Silverstein C. Beyond market baskets: Generalizing association rules to correlations. In: Proceedings of the ACM SIGMOD, Canada, 1996.255～276

共引文献192

1吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
2赵娜,臧景才.多标记传播聚类算法在电子商务中的应用[J].青海大学学报（自然科学版）,2009,27(1):85-88.
3薛昌春.浅谈电子商务中客户购物信息挖掘研究[J].科技经济市场,2007(11):32-33. 被引量：1
4蔡猷花,张岐山.Web日志挖掘及其在电子商务领域的应用[J].管理学报,2005,2(z1):133-135.
5郑慧霞,王丽娜,钱庆.读者访问序列模式的探索[J].图书情报工作,2010,54(S1):271-274.
6卢咏,卢云.基于WEB日志挖掘的旅游信息资源网站个性化研究[J].长沙铁道学院学报（社会科学版）,2007,8(4):162-163.
7朱丽红,赵燕平.Web挖掘研究综述[J].情报杂志,2004,23(7):2-5. 被引量：16
8严华云.Web挖掘在网络教育中的应用研究[J].湖州师范学院学报,2003,25(6):72-75. 被引量：10
9邱均平,张洋.网络信息计量学综述[J].高校图书馆工作,2005,25(1):1-12. 被引量：44
10郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50

同被引文献72

1涂承胜,陆玉昌.Web使用挖掘技术研究[J].小型微型计算机系统,2004,25(7):1177-1184. 被引量：37
2刘琦,林怀忠,陈纯.模糊聚类的最大树算法在Web页面分类中的应用[J].计算机应用研究,2004,21(11):286-287. 被引量：12
3战立强,刘大昕.基于访问路径树的Web频繁访问路径挖掘算法研究[J].计算机应用研究,2005,22(1):96-98. 被引量：4
4鲁建文,张俊,田涛,段振生.利用LINEST函数进行多元线性回归分析[J].农业网络信息,2005(1):57-58. 被引量：6
5刘志成,文全刚.“K-中心点”聚类算法分析及其实现[J].电脑知识与技术（技术论坛）,2005(2):20-24. 被引量：6
6郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
7庄力可,寇忠宝,张长水.网络日志挖掘中基于时间间隔的会话切分[J].清华大学学报（自然科学版）,2005,45(1):115-118. 被引量：24
8易高翔,程耕国.数据挖掘在Web智能化中应用研究[J].计算机工程与设计,2005,26(1):58-60. 被引量：14
9战立强,刘大昕.一种在连续MFR中快速挖掘频繁访问路径的新算法[J].计算机工程与应用,2005,41(9):180-181. 被引量：8
10龚汉明,周长胜.一种Web挖掘的框架[J].计算机工程与设计,2005,26(8):2128-2130. 被引量：5

引证文献12

1马瑞民,李向云.Web日志挖掘中数据预处理技术的研究[J].计算机工程与设计,2007,28(10):2358-2360. 被引量：19
2吴瑛,王秋生.模糊C均值聚类算法在Web使用挖掘上的应用研究[J].计算机技术与发展,2008,18(6):32-35. 被引量：9
3任永功,付玉,张亮,吕君义.一种新的基于Web日志的挖掘用户浏览偏爱路径的方法[J].计算机科学,2008,35(10):192-196. 被引量：4
4任永功,付玉,张亮.基于web日志的连续频繁路径挖掘算法[J].小型微型计算机系统,2008,29(12):2272-2276. 被引量：3
5王华,王治和,杨天霞,王凌云.模糊集在web用户聚类中的应用[J].光盘技术,2008(11):37-37.
6任永功,付玉,张亮.一种改进的用户浏览偏爱路径挖掘方法[J].计算机工程,2009,35(8):47-49. 被引量：1
7毕永成.Web日志挖掘中预处理过程的具体研究[J].现代电子技术,2010,33(18):97-100. 被引量：2
8许晓东,李柯,朱士瑞.Web日志中RCFA路径的挖掘方法[J].计算机工程,2010,36(22):55-57.
9李爱飞,冀振燕,王经纬.一种基于页面价值和跳转偏爱度挖掘频繁访问路径的模型[J].计算机系统应用,2013,22(3):96-99.
10刘美玲,苏毅娟.基于Apriori的Web访问模式挖掘算法[J].计算机与现代化,2013(10):1-5. 被引量：3

二级引证文献38

1邬啸,魏延,吴瑕.改进的双隶属度模糊支持向量机[J].重庆师范大学学报（自然科学版）,2011,28(5):49-52. 被引量：5
2徐志玮.Web日志挖掘预处理中复杂问题的解决方法[J].现代情报,2008,28(6):79-81. 被引量：2
3袁曼丽,宋考,陈高琳.采用数据挖掘技术的数据库审计系统[J].中国新通信,2008,10(17):61-64.
4顾韵华,王兴,丁妮.Web应用安全扫描系统及关键技术研究[J].计算机工程与设计,2008,29(18):4715-4717. 被引量：7
5张春生,庄丽艳.基于兴趣的Web挖掘中用户身份的识别新方法[J].计算机技术与发展,2009,19(5):62-64. 被引量：1
6陈小莉.基于用户行为个性化学习研究[J].电脑知识与技术,2009,5(4):2779-2781. 被引量：2
7王立峰,林钢,林吾思.模糊c-均值聚类法在干港选址中的应用[J].水运工程,2009(5):25-27. 被引量：1
8袁浩,黄烟波.网页标题分析对主题爬虫的改进[J].计算机技术与发展,2009,19(6):22-24. 被引量：11
9席凤磊,毛宇光,廉成洋.XQuery中FL WOR式的查询重写研究[J].计算机技术与发展,2009,19(6):25-28.
10姜季春,向程冠.基于多层次关联规则的Web日志挖掘[J].科技信息,2009(16):176-177.

1冯洁,陶宏才.一种频繁项集的快速挖掘算法[J].微计算机信息,2007(18):164-166. 被引量：7
2王扶东,李兵,薛劲松,朱云龙.客户关系管理中基于约束的关联规则挖掘方法研究[J].计算机集成制造系统-CIMS,2004,10(4):465-470. 被引量：8
3丁卫平,祁恒,董建成,管致锦.基于关联规则的电子病历挖掘算法研究与应用[J].微电子学与计算机,2007,24(3):69-73. 被引量：19
4裴古英.一种基于布尔矩阵的关联规则快速挖掘算法[J].自动化与仪器仪表,2009(5):16-18. 被引量：2
5许普乐,纪允,张勤.应用FP树快速生成无关集算法[J].安庆师范学院学报（自然科学版）,2016,22(2):60-65. 被引量：1
6杨君锐.一种频繁项目集的快速挖掘算法[J].微电子学与计算机,2004,21(2):70-72. 被引量：2
7胡慧蓉,王周敬.一种基于关系矩阵的关联规则快速挖掘算法[J].计算机应用,2005,25(7):1577-1579. 被引量：21
8杨萍.一种基于F-矩阵的最大频繁项目集快速挖掘算法[J].计算机工程与应用,2003,39(34):197-200. 被引量：1
9郭景峰,路燕.基于小超集的关联规则快速挖掘算法[J].计算机工程,2000,26(12):40-41. 被引量：1
10安立奎,钱伟懿,韩丽艳.集群系统中基于MPI的关联规则快速挖掘算法[J].三峡大学学报（自然科学版）,2010,32(1):95-97. 被引量：5

计算机工程与应用

2005年第22期

浏览历史

内容加载中请稍等...

Web日志中用户频繁路径快速挖掘算法被引量：12

参考文献8

二级参考文献13

共引文献192

同被引文献72

引证文献12

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

Web日志中用户频繁路径快速挖掘算法 被引量：12

参考文献8

二级参考文献13

共引文献192

同被引文献72

引证文献12

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

Web日志中用户频繁路径快速挖掘算法被引量：12