期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
Web使用挖掘数据预处理中的会话构造 被引量:11
1
作者 欧阳一鸣 汪曦东 +1 位作者 郭骏 刘红樱 《计算机工程与应用》 CSCD 北大核心 2005年第25期148-151,共4页
文章主要论述了在Web使用挖掘数据预处理中如何构造用户与网站之间的会话。首先,根据对Web服务器日志数据格式的分析,对会话概念进行了形式化描述;然后在分析目前会话构造方法的基础上,利用基于时间和引用的启发式方法来构造会话;最后... 文章主要论述了在Web使用挖掘数据预处理中如何构造用户与网站之间的会话。首先,根据对Web服务器日志数据格式的分析,对会话概念进行了形式化描述;然后在分析目前会话构造方法的基础上,利用基于时间和引用的启发式方法来构造会话;最后依据评估会话构造方法的标准,通过实验对给出的新会话构造方法与其他方法进行了分析比较。 展开更多
关键词 web使用挖掘 数据预处理 会话构造
在线阅读 下载PDF
基于Web的日志挖掘数据预处理方法的研究 被引量:33
2
作者 张健沛 刘建东 杨静 《计算机工程与应用》 CSCD 北大核心 2003年第10期191-193,共3页
随着www的广泛应用及相应的Web技术的出现,使数据挖掘的研究进入了一个新的阶段。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。论文针对基于日志的数据挖掘提出了前期的几种数据预处理方法,目的是分割服务器日志为... 随着www的广泛应用及相应的Web技术的出现,使数据挖掘的研究进入了一个新的阶段。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。论文针对基于日志的数据挖掘提出了前期的几种数据预处理方法,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了很好的算法实现。 展开更多
关键词 web 日志挖掘 数据预处理 数据库 数据挖掘 知识发现
在线阅读 下载PDF
Web日志挖掘中的数据预处理技术 被引量:22
3
作者 李燕 冯博琴 鲁晓锋 《计算机工程》 CAS CSCD 北大核心 2009年第22期44-46,49,共4页
数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中... 数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中的记录引用信息较完整的情况下,该方法可以高效地获得用户的访问路径。 展开更多
关键词 web日志挖掘 数据预处理 用户会话识别 路径补充
在线阅读 下载PDF
Web使用数据挖掘中数据预处理的研究 被引量:11
4
作者 易敏昕 汪胜 +1 位作者 张有仁 陈宝树 《计算机工程与应用》 CSCD 北大核心 2003年第24期154-157,共4页
Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段。其中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出了一个预处理工具模型WUMPA。并针对预处理过程中动态页面跟踪、站点结构表示和会话管理等... Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段。其中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出了一个预处理工具模型WUMPA。并针对预处理过程中动态页面跟踪、站点结构表示和会话管理等难点问题进行了进一步分析,提出了一个网站结构数据模型SITEDM和一个高效的会话管理算法session_manager。 展开更多
关键词 web 数据挖掘 数据预处理 会话 网站结构数据模型
在线阅读 下载PDF
一种Web日志会话识别的优化方法 被引量:18
5
作者 陈子军 王鑫昱 李伟 《计算机工程》 CAS CSCD 北大核心 2007年第1期95-97,共3页
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。该文对此提出优化算法,并对最常用的Timeout方法识别的会话进行优化,通过实验证明会话质量得到了提高。
关键词 web日志挖掘 数据预处理 会话识别
在线阅读 下载PDF
Web日志挖掘预处理中的Frame页面过滤算法 被引量:14
6
作者 杨怡玲 管旭东 尤晋元 《计算机工程》 CAS CSCD 北大核心 2001年第2期76-77,共2页
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式。在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法--Frame页面过滤算法消除其影响。通过实验数据对... Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式。在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法--Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。 展开更多
关键词 web 日志挖掘 数据预处理 数据挖掘 FrAme页面 过滤算法
在线阅读 下载PDF
Web日志预处理中优化的会话识别方法 被引量:11
7
作者 方元康 胡学钢 夏启寿 《计算机工程》 CAS CSCD 北大核心 2009年第7期49-51,共3页
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容... 针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。 展开更多
关键词 web挖掘 数据预处理 阈值 Frame页面 会话识别
在线阅读 下载PDF
Web使用挖掘技术研究 被引量:37
8
作者 涂承胜 陆玉昌 《小型微型计算机系统》 CSCD 北大核心 2004年第7期1177-1184,共8页
简要介绍了 WEB挖掘的基本概念及其分类 ,讨论了 Web使用挖掘的有关理论及其应用 .重点分析了 Web使用挖掘的主要研究对象和研究方法 ,包括 :挖掘的数据对象、数据的采集、数据预处理、模式发现、模式分析及其相关技术 .展望了
关键词 web挖掘 web网络使用挖掘 数据预处理 模式发现 模式分析
在线阅读 下载PDF
Web使用挖掘技术研究综述 被引量:17
9
作者 陈健 印鉴 《计算机工程》 CAS CSCD 北大核心 2005年第9期4-6,共3页
Web使用挖掘就是利用数据挖掘技术从Web数据中发现用户使用模式的过程。该文介绍了Web使用挖掘的定义和背景知识,对Web使用挖掘的3个阶段:预处理,模式发现和模式分析进行详细的说明;深入研究了具体应用中的发展方向和所要解决的关键技术... Web使用挖掘就是利用数据挖掘技术从Web数据中发现用户使用模式的过程。该文介绍了Web使用挖掘的定义和背景知识,对Web使用挖掘的3个阶段:预处理,模式发现和模式分析进行详细的说明;深入研究了具体应用中的发展方向和所要解决的关键技术;对将来Web使用挖掘领域的研究问题作了展望。 展开更多
关键词 web使用挖掘 数据预处理 模式挖掘 模式分析 web应用
在线阅读 下载PDF
Web使用挖掘技术的分析与研究 被引量:23
10
作者 朱志国 邓贵仕 《计算机应用研究》 CSCD 北大核心 2008年第1期29-32,36,共5页
首先给出Web使用挖掘的定义和完整模型框架;然后对Web使用挖掘中主要步骤的最新研究进展状况作了详细的阐述和分析,其中包括数据采集、数据预处理、模式发现和模式分析;最后对未来的研究重点进行了展望。
关键词 web挖掘 web使用挖掘 数据预处理 模式发现 模式分析
在线阅读 下载PDF
Web日志挖掘中数据预处理技术的研究 被引量:19
11
作者 马瑞民 李向云 《计算机工程与设计》 CSCD 北大核心 2007年第10期2358-2360,共3页
在Web日志挖掘中数据预处理是整个挖掘过程的基础,由于客户端缓存的存在,在已往的预处理过程中都是通过路径补充技术得到用户完整的访问路径之后,才能进行事务识别。提出了一种只需根据网站的拓扑结构,不需要使用路径补充技术,由用户访... 在Web日志挖掘中数据预处理是整个挖掘过程的基础,由于客户端缓存的存在,在已往的预处理过程中都是通过路径补充技术得到用户完整的访问路径之后,才能进行事务识别。提出了一种只需根据网站的拓扑结构,不需要使用路径补充技术,由用户访问序列直接生成事务的算法。 展开更多
关键词 web日志挖掘 数据预处理 路径补充 访问序列 访问事务
在线阅读 下载PDF
改进的Web访问日志会话识别算法 被引量:8
12
作者 严奉华 刘建平 杨凡丁 《计算机工程与设计》 CSCD 北大核心 2008年第22期5685-5687,5690,共4页
针对Web日志挖掘中的会话识别问题,分别对Timeout方法、参引长度法进行改进,提出了一种改进的会话识别方法。该方法运用网站的拓扑结构信息,动态设定各页面的时间间隔阀值,使页面时间间隔阀值同页面的重要程度结合起来。同时通过灵活界... 针对Web日志挖掘中的会话识别问题,分别对Timeout方法、参引长度法进行改进,提出了一种改进的会话识别方法。该方法运用网站的拓扑结构信息,动态设定各页面的时间间隔阀值,使页面时间间隔阀值同页面的重要程度结合起来。同时通过灵活界定内容页,并针对内容页,提出了一些启发式规则,突破了"参引长度法"所固有的一个会话中只包含一个内容页的瓶颈。该方法提高了会话识别的准确度,实验结果表明是有效的。 展开更多
关键词 web日志挖掘 数据预处理 会话 内容页 时间阀值 启发式规则
在线阅读 下载PDF
改进的Web日志数据预处理技术 被引量:3
13
作者 方元康 胡学钢 +1 位作者 夏启寿 朱勇 《计算机工程》 CAS CSCD 北大核心 2009年第10期73-74,77,共3页
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话... 介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。 展开更多
关键词 web日志挖掘 数据预处理 frame页面 会话识别
在线阅读 下载PDF
Web日志会话的个性化识别方法的研究 被引量:7
14
作者 董志锋 陈俊杰 付裕峰 《计算机工程与应用》 CSCD 北大核心 2008年第8期179-182,共4页
会话识别是Web日志挖掘中的重要步骤。针对目前的各种会话识别方法,提出了一种改进的基于页面内容、下载时间等多个参数综合得到的针对每个用户的个性化识别方法。该方法通过使用访问时间间隔,判断是否在极大、极小两个阈值范围内来识... 会话识别是Web日志挖掘中的重要步骤。针对目前的各种会话识别方法,提出了一种改进的基于页面内容、下载时间等多个参数综合得到的针对每个用户的个性化识别方法。该方法通过使用访问时间间隔,判断是否在极大、极小两个阈值范围内来识别会话。根据页面内容、站点结构确定页面重要程度,通过页面的信息容量确定用户正常的阅读时间,通过Web日志中页面下载时间来确定起始阅读时间,对以上因素进行综合后对该阈值进行调整。实验结果表明,相对于目前的对所有用户页面使用单一先验阈值进行会话识别的方法及使用针对用户页面的阈值动态调整方法,提出的方法能更准确地个性化确定出页面访问时间阈值,更为合理有效。 展开更多
关键词 web挖掘 会话识别 预处理 阈值
在线阅读 下载PDF
一种Web使用挖掘数据清理方法 被引量:4
15
作者 张峰伟 陈兴蜀 +1 位作者 尹学渊 刘莉伟 《四川大学学报(工程科学版)》 CSCD 北大核心 2014年第S1期160-165,共6页
针对传统的Web使用挖掘数据清理方法不再适用于现有网络环境的现状,提出了一种Web使用挖掘数据清理方法。该方法提出以网络流量作为Web使用挖掘的数据来源,将数据清理的问题转变为对用户显式操作产生的HTTP会话的识别问题,使用二进制粒... 针对传统的Web使用挖掘数据清理方法不再适用于现有网络环境的现状,提出了一种Web使用挖掘数据清理方法。该方法提出以网络流量作为Web使用挖掘的数据来源,将数据清理的问题转变为对用户显式操作产生的HTTP会话的识别问题,使用二进制粒子群算法(BPSO)选出最能精确识别用户显式HTTP会话的特征子集,利用选择出的特征子集生成决策树对用户显式HTTP会话进行识别。实验结果表明:该方法能够准确、有效地识别出用户显式HTTP会话,对日志记录数的压缩率达到98.7%,能够完成数据清理的任务,为之后的数据挖掘提供有力的支持。 展开更多
关键词 数据挖掘 粒子群算法 数据预处理 web使用挖掘
在线阅读 下载PDF
Web使用挖掘中数据预处理过程研究 被引量:6
16
作者 李超锋 杨殿生 许云 《电子测量技术》 2007年第3期3-5,共3页
Web使用挖掘是将数据挖掘技术应用于用户浏览Web时交互作用的二次数据以发现使用模式,从而达到更好地理解和服务基于Web应用的需要的目的。在将数据挖掘算法应用于从服务器日志收集来的数据之前必须要进行一些预处理工作。数据预处理就... Web使用挖掘是将数据挖掘技术应用于用户浏览Web时交互作用的二次数据以发现使用模式,从而达到更好地理解和服务基于Web应用的需要的目的。在将数据挖掘算法应用于从服务器日志收集来的数据之前必须要进行一些预处理工作。数据预处理就是把源数据转换为下一步应用数据挖掘算法所必须的数据抽象的过程。作为模式发现的数据源,数据预处理结果的质量直接影响着模式发现的最终结果。本文提出了几种可用于提高数据预处理性能的技术和方法。实验证明,这些技术和方法是有效的。最后,总结全文并提出了进一步的研究方向。 展开更多
关键词 web使用挖掘 web日志 数据预处理 用户会话
在线阅读 下载PDF
优化的Web日志会话识别方法 被引量:3
17
作者 方元康 王汝传 《计算机工程与设计》 CSCD 北大核心 2009年第7期1688-1690,共3页
关于Web使用挖掘中的会话识别问题,提出了一种改进的会话识别方法。统计每个页面的访问时间,并结合页面内容及站点结构生成页面访问时间阈值,再用页面访问时间阈值划分会话,然后对产生的会话集使用会话重组,即合并与断开的方法,对生成... 关于Web使用挖掘中的会话识别问题,提出了一种改进的会话识别方法。统计每个页面的访问时间,并结合页面内容及站点结构生成页面访问时间阈值,再用页面访问时间阈值划分会话,然后对产生的会话集使用会话重组,即合并与断开的方法,对生成的会话集进行进一步地优化。通过实验结果表明,该方法所得到的会话集更具有真实性。 展开更多
关键词 web挖掘 数据预处理 阈值 会话
在线阅读 下载PDF
Web日志数据挖掘中数据预处理模型的研究与建立 被引量:9
18
作者 赵莹莹 韩元杰 《现代电子技术》 2007年第4期103-105,共3页
数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标... 数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标识、路径补充和格式化,并结合旅游网站进行了实例验证。证明该数据预处理模型是完全可行,并且具有良好的通用性和可扩展性。 展开更多
关键词 web日志挖掘 数据挖掘 数据预处理 用户标识 会话标识
在线阅读 下载PDF
Web日志挖掘中数据预处理方法研究 被引量:3
19
作者 陈红丽 李春生 张明 《科学技术与工程》 北大核心 2012年第8期1928-1930,1935,共4页
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明,改进后的会话识别方法能更有效地识别出用户的... 数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明,改进后的会话识别方法能更有效地识别出用户的真实会话。 展开更多
关键词 数据预处理 会话识别 web日志挖掘
在线阅读 下载PDF
Web使用挖掘技术分析 被引量:4
20
作者 李超锋 卢炎生 《计算机科学》 CSCD 北大核心 2006年第2期220-222,共3页
介绍了一种 Web 挖掘的分类,包括 Web 内容挖掘、Web 结构挖掘和 Web 使用挖掘。讨论了 Web 使用挖掘过程的三个步骤,即数据获取与数据预处理、模式发现和模式分析,详细分析了每一个步骤中所使用的技术。指出了目前 Web 使用挖掘研究存... 介绍了一种 Web 挖掘的分类,包括 Web 内容挖掘、Web 结构挖掘和 Web 使用挖掘。讨论了 Web 使用挖掘过程的三个步骤,即数据获取与数据预处理、模式发现和模式分析,详细分析了每一个步骤中所使用的技术。指出了目前 Web 使用挖掘研究存在的不足,给出了 Web 使用挖掘未来的研究方向。 展开更多
关键词 web使用挖掘 数据预处理 模式发现.模式分析
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部