-
题名Web日志挖掘预处理中的Frame页面过滤算法
被引量:14
- 1
-
-
作者
杨怡玲
管旭东
尤晋元
-
机构
上海交通大学计算机科学与工程系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期76-77,共2页
-
文摘
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式。在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法--Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。
-
关键词
WEB
日志挖掘
数据预处理
数据挖掘
frame页面
过滤算法
-
Keywords
Web usage mining;Log analysis;Data preprocess;Frequently visited page groups
-
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于框架网页与页面阈值的会话识别算法
- 2
-
-
作者
方元康
胡学钢
夏启寿
朱勇
-
机构
池州学院计算机中心
合肥工业大学计算机与信息学院
-
出处
《计算机应用与软件》
CSCD
2009年第1期18-19,27,共3页
-
基金
国家自然科学基金项目(050504F)
安徽省教育厅自然科学基金项目(XK0829)
安徽省教育厅自然科学基金项目(KJ2008B45ZC)
-
文摘
会话识别是Web日志预处理过程中的一个重要环节,针对传统会话识别的不足,提出一种改进的会话识别算法。在识别出具体的用户之后,过滤大量的框架网页;然后根据每个页面的内容及网站结构,构造出相对合理的页面访问时间阈值,并以此阈值来进行用户的会话识别。最后通过实验数据,与几种传统的会话识别方法进行了比较,表明该算法更为合理有效。
-
关键词
WEB挖掘
数据预处理
阈值
frame页面
会话识别
-
Keywords
Web mining Data preprocessing Threshold frame page Session identification
-
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名Web日志预处理中优化的会话识别方法
被引量:11
- 3
-
-
作者
方元康
胡学钢
夏启寿
-
机构
合肥工业大学计算机与信息学院
池州学院计算机中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第7期49-51,共3页
-
基金
国家自然科学基金资助项目(050504F)
池州学院自然科学基金资助项目(XK0829)
-
文摘
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。
-
关键词
WEB挖掘
数据预处理
阈值
frame页面
会话识别
-
Keywords
Web mining
data preprocessing
threshold
frame page
session identification
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的Web日志数据预处理技术
被引量:3
- 4
-
-
作者
方元康
胡学钢
夏启寿
朱勇
-
机构
池州学院计算机中心
合肥工业大学计算机与信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第10期73-74,77,共3页
-
基金
国家自然科学基金资助项目(050504F)
安徽省教育厅自然科学基金资助项目(XK0829,KJ2008B45ZC)
池州学院自然科学基金资助项目(2007XJ015)
-
文摘
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。
-
关键词
WEB日志挖掘
数据预处理
frame页面
会话识别
-
Keywords
Web log mining
data preprocessing
frame page
session identification
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-