Web日志挖掘研究被引量：1

Web Log Mining

在线阅读下载PDF

导出

摘要通过对Web服务器日志文件进行分析,可以发现相似客户群体、相关Web页面和频繁访问路径。在本文算法中,首先以Web站点的URL为行、以UserID为列建立URL-UserID关联矩阵,其元素值为用户的访问次数。然后,采用模糊聚类算法和K-平均算法两种方法分别对列向量进行分析得到相似客户群体,对行向量进行分析可获得相关页面,对后者再进一步处理还可以发现频繁访问路径。实验结果表明了算法的有效性。 Similar customer groups, relevant Web pages and frequent access paths can be discovered by analyzing Web log files. In the algorithms the present paper introduces, first, a URL-UserID relevant matrix is set up with URL as row and UserID as column and each element value as the user's hits. Second, with the help of fuzzy clustering and k-average algorithms, the similar customer groups are discovered by measuring similarity between column vectors, and the relevant Web pages are obtained by measuring similarity between row vectors and the frequent access paths can also be discovered by further processing the latter. Experiments prove the effectiveness of the algorithms.

作者叶苗群

机构地区宁波大学

出处《宁波工程学院学报》 2005年第2期4-7,共4页 Journal of Ningbo University of Technology

关键词 WEB日志挖掘 Web服务器 K-平均算法模糊聚类算法访问路径 WEB页面 WEB站点日志文件关联矩阵访问次数 URL 列向量行向量群体客户相似相关 customers clustering,Web pages clustering,frequent access paths,Web log mining,cluster analysis

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王颖楠,滕飞,解莉,孙俏.Web挖掘技术[J].吉林工学院学报（自然科学版）,2002,23(1):11-15. 被引量：9
2宋爱波,胡孔法,董逸生.Web日志挖掘[J].东南大学学报（自然科学版）,2002,32(1):15-18. 被引量：30
3施建生,伍卫国,陆丽娜.Web日志挖掘中一种事务识别方法的改进[J].小型微型计算机系统,2002,23(1):116-118. 被引量：6
4宋擒豹,沈钧毅.Web页面和客户群体的模糊聚类算法[J].小型微型计算机系统,2001,22(2):229-231. 被引量：21
5张弢,纪德云.模糊聚类分析法[J].沈阳大学学报,2000,12(2):73-79. 被引量：25

二级参考文献13

1张文修.模糊数学基础[M]西安交通大学出版社,1984.
2汪培庄.模糊集合论及其应用[M]上海科学技术出版社,1983.
3[日]浅居喜代治等著,赵汝怀.模糊系统理论入门[M]北京师范大学出版社,1982.
4朱廷劭,高文.KDD:数据库中的知识发现[J].计算机科学,1997,24(6):5-9. 被引量：26
5沈达阳,孙茂松.万维网知识挖掘方法的研究[J].计算机科学,2000,27(2):79-82. 被引量：14
6陆伟,吴朝晖.知识发现方法的比较研究[J].计算机科学,2000,27(3):80-84. 被引量：7
7王实,高文,李锦涛.Web数据挖掘[J].计算机科学,2000,27(4):28-31. 被引量：120
8刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988. 被引量：23
9王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
10林士敏,田凤占,陆玉昌.用于数据采掘的贝叶斯分类器研究[J].计算机科学,2000,27(10):73-76. 被引量：31

共引文献83

1周若男,陈雷,周春燕,谢宗英,母丹.基于稠油井井口温度聚类分析的生产预警系统建设[J].智能制造,2021(S01):103-110.
2吕亚丽.WEB日志挖掘及其应用研究[J].山西财经大学学报,2006,28(S1). 被引量：2
3杨知行.地面数字电视国家标准DTMB技术解读[J].中国数字电视,2006(11):30-33. 被引量：18
4张小松,窦炳琳.Web挖掘研究[J].唐山学院学报,2003,16(4):80-82. 被引量：3
5杨峰,周宁.基于数据库技术实现的电子商务中的个性化服务[J].图书情报知识,2004,21(4):74-75.
6胡建武,何贞铭,张贻权.WEB日志挖掘及其实现[J].计算机工程与应用,2004,40(14):156-158. 被引量：13
7丁一,卢正鼎.基于web挖掘的用户服务研究[J].计算机仿真,2004,21(6):83-84. 被引量：6
8何丽,韩文秀.一种基于后缀树的Web访问模式挖掘算法[J].计算机应用,2004,24(11):68-70. 被引量：6
9孙惠琴,熊璋.基于粗集的模糊聚类方法和结果评估[J].复旦学报（自然科学版）,2004,43(5):819-822. 被引量：9
10钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2

同被引文献4

1王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4):34-36. 被引量：2
2李国慧.Web数据挖掘研究[J].数据库与信息管理本,2008.
3苏晶.Web数据挖掘的技术研究[J].中国新技术新产品,2008(17):13-13. 被引量：1
4张健沛,刘建东,杨静.基于Web的日志挖掘数据预处理方法的研究[J].计算机工程与应用,2003,39(10):191-193. 被引量：33

引证文献1

1杨富华.Web日志挖掘的研究与分析[J].制造业自动化,2011,33(6):48-50. 被引量：1

二级引证文献1

1何鹏程,方勇.一种基于Web日志和网站参数的入侵检测和风险评估模型的研究[J].信息网络安全,2015(1):61-65. 被引量：21

1严华云.Web挖掘在网络教育中的应用研究[J].湖州师范学院学报,2003,25(6):72-75. 被引量：10
2李志.基于Apriori算法的Web日志挖掘探究[J].电子制作,2013,21(16):64-64.
3钟园园,雷丽娟.基于Apriori算法的Web日志挖掘研究[J].电脑迷（数码生活）（上旬刊）,2013(6):16-17.
4石玉强,陈琼.基于Rough集的属性约简的算法分析[J].琼州大学学报,2007,14(2):48-50.
5郜继红.基于Cookie的Web站点访问次数统计方法[J].科技广场,2014(11):44-46.
6温传伟.快速找回误关闭网页[J].中国电子与网络出版,2002,0(10):37-37.
7曾宝珠,谷大武.网络服务访问者追踪系统的设计与实现[J].计算机工程,2005,31(1):125-126.
8郝忠孝.使用关联矩阵的查询优化算法[J].计算机工程,1989,4(5):60-63.
9Facebook广告访问数超雅虎[J].中国信息化,2010(10):11-11.
10马征宇.网络服务器访问次数的预测方法[J].电子技术参考,2000(1):55-57.

宁波工程学院学报

2005年第2期

浏览历史

内容加载中请稍等...

Web日志挖掘研究被引量：1

参考文献5

二级参考文献13

共引文献83

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

Web日志挖掘研究 被引量：1

参考文献5

二级参考文献13

共引文献83

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

Web日志挖掘研究被引量：1