摘要
Web访问志中含有大量用户浏览信息,从中有效挖掘出用户频繁路径是建立自适用化网站的必要前提。该文在Apriori算法和有向图存储结构的基础上,提出了会话矩阵和遍历矩阵的概念,设计了用户频繁路径快速挖掘算法:首先利用会话矩阵筛选出满足一定阈值条件的频繁一项集,这样避免产生大量中间项;然后在相似客户群体内,对页面快速聚类,得到相关联页面;最后根据遍历矩阵对相关联页面进行路径合并,得出频繁路径。实验表明此算法的准确性和快速性。
Web logs contain a lot of user browsing information,it's necessary condition for creating adaptive web sites. On the analysis of Apriori algorithm and graphic storage organization,This paper proposes Session Matrix and Trace Matrix,designs a fast algorithm for mining user frequent paths:Firstly,Frequent 1-1tem Set which match the criteria of certain threshold is filtered ouffrom web access logs by Session Matrix,which avoids generating a great dealof intermediate items;Then we can get relative pages by clustering pages fast in similar customer groups;Finally,all the relative pages is combined by Trace Matrix,which generates Frequent PathsoExperiments show the accuracy and fast of the algorithm.
出处
《计算机工程与应用》
CSCD
北大核心
2005年第22期164-167,共4页
Computer Engineering and Applications
作者简介
杜家强(1979-),男,硕士研究生,研究方向为计算机网络,数据挖掘 .E-mail:djqluck@peopledaily.com.cn韩其睿(1957-),男,教授,硕士生导师,研究方向为计算机图形处理,软件。王科(1978-),硕士研究生,研究方向为网络通讯,模式识别。杜家兴(1976-),男,网络工程师,研究方向为网络安全。