期刊文献+
共找到264篇文章
< 1 2 14 >
每页显示 20 50 100
基于Web-LogMining寻找目标网页最优期望定位 被引量:1
1
作者 丛蓉 王秀坤 +1 位作者 吴军 周岩 《计算机工程与应用》 CSCD 北大核心 2004年第34期151-153,178,共4页
为了优化网站的访问效能,实现网站实际结构与用户的使用行为相吻合,该文主要应用Web挖掘技术,以网站的服务器Web日志作为数据源,使用算法FEL和算法CRLL从用户访问事务序列中寻找目标网页的期望定位,并以最少“后退”次数为原则生成推荐... 为了优化网站的访问效能,实现网站实际结构与用户的使用行为相吻合,该文主要应用Web挖掘技术,以网站的服务器Web日志作为数据源,使用算法FEL和算法CRLL从用户访问事务序列中寻找目标网页的期望定位,并以最少“后退”次数为原则生成推荐链接列表。网站设计者可根据该列表,修改网页之间的链接关系,达到减少对目标网页搜索时间的目的。 展开更多
关键词 WEB挖掘 WEB文件 目标网页 期望定位
在线阅读 下载PDF
网络日志规模分析和用户兴趣挖掘 被引量:62
2
作者 郭岩 白硕 +1 位作者 杨志峰 张凯 《计算机学报》 EI CSCD 北大核心 2005年第9期1483-1496,共14页
文章围绕网络日志中是否蕴含用户访问Web的规律性特性以及如何利用这些特性,研究了日志规模与用户数、Web文档数以及单位用户访问的Web文档数的关系;通过用户对Web访问动机的分析得出结论:一定时间段的Web访问日志中蕴含了用户的稳定兴... 文章围绕网络日志中是否蕴含用户访问Web的规律性特性以及如何利用这些特性,研究了日志规模与用户数、Web文档数以及单位用户访问的Web文档数的关系;通过用户对Web访问动机的分析得出结论:一定时间段的Web访问日志中蕴含了用户的稳定兴趣;利用日志中蕴含的用户稳定兴趣,提出了一个基于用户行为的相关文档检索模型和搜索引擎系统SISI.SISI的实际检索性能与分析检索模型所得结论一致:检索准确率和检索时间主要依赖于用户数,检索返回的记录数主要依赖于文档数. 展开更多
关键词 WEB日志挖掘 日志规模 兴趣 用户行为
在线阅读 下载PDF
Web日志挖掘中的数据预处理的研究 被引量:57
3
作者 陆丽娜 杨怡玲 +1 位作者 管旭东 魏恒义 《计算机工程》 EI CAS CSCD 北大核心 2000年第4期66-67,72,共3页
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的... 为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍了各过程的主要任务。 展开更多
关键词 数据挖掘 WEB 日志挖掘 数据预处理 数据库
在线阅读 下载PDF
Web日志挖掘中的数据预处理技术研究 被引量:62
4
作者 赵伟 何丕廉 +1 位作者 陈霞 谢振亮 《计算机应用》 CSCD 北大核心 2003年第5期62-64,67,共4页
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。
关键词 数据挖掘 WEB日志挖掘 数据预处理
在线阅读 下载PDF
一种Web用户行为聚类算法 被引量:20
5
作者 业宁 李威 +1 位作者 梁作鹏 董逸生 《小型微型计算机系统》 CSCD 北大核心 2004年第7期1364-1367,共4页
提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法... 提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法过滤了小于指定阈值的相似度系数 ,大大缩小了数据规模 ,很好地解决了其他聚类算法 (如层次聚类 )在高维空间聚类时的“维数灾难”问题 ,最后的实验结果很好 . 展开更多
关键词 WEB日志 数据挖掘 聚类 相似度
在线阅读 下载PDF
结合网站内容和结构进行的Web日志挖掘 被引量:9
6
作者 江宝林 申展 +2 位作者 张川 葛家翔 胡运发 《计算机工程》 CAS CSCD 北大核心 2004年第16期30-32,共3页
提出一种以聚类为基础的Web日志挖掘方法:从Web日志事务、Web站点内容和Web站点结构3个不同方面来聚类页面集合,并通过将用户的访问记录和页面聚集进行匹配和相关度计算,来预测用户感兴趣的页面。
关键词 WEB日志挖掘 Web日志事务 访问模式 聚类
在线阅读 下载PDF
一个简单的Web日志挖掘系统 被引量:22
7
作者 杨怡玲 管旭东 +1 位作者 陆丽娜 尤晋元 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第7期932-935,共4页
在分析 Web日志挖掘的困难及对策的基础上 ,给出了一个简单的 Web日志挖掘系统( SWLMS)的体系结构 .具体介绍了 SWLMS中日志的预处理过程 ,包括数据净化、用户识别、会话识别、路径补充的主要任务及其实现 ,并着重介绍了预处理之后的序... 在分析 Web日志挖掘的困难及对策的基础上 ,给出了一个简单的 Web日志挖掘系统( SWLMS)的体系结构 .具体介绍了 SWLMS中日志的预处理过程 ,包括数据净化、用户识别、会话识别、路径补充的主要任务及其实现 ,并着重介绍了预处理之后的序列模式识别过程和算法 ,包括最大向前路径的识别和频繁遍历路径的发现 。 展开更多
关键词 数据挖掘 WEB日志挖掘 序列模式识别 SWLMS
在线阅读 下载PDF
Web日志挖掘技术进展 被引量:17
8
作者 陈新中 李岩 +2 位作者 杨炳儒 谢永红 张运涛 《系统工程与电子技术》 EI CSCD 北大核心 2003年第4期492-495,共4页
用户访问Internet时,服务器、客户机日志会记录下大量的用户访问信息。通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方... 用户访问Internet时,服务器、客户机日志会记录下大量的用户访问信息。通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方面都将起到重要的作用。概述了Web挖掘的概念、分类及其主要应用领域,详细介绍了Web日志挖掘的主要方法和用户访问模式挖掘算法及国内外最新研究进展。最后提出了Web用户访问信息挖掘研究的发展方向和趋势。 展开更多
关键词 AI 万维网 WEB挖掘 WEB日志挖掘
在线阅读 下载PDF
Web日志挖掘中数据预处理的研究 被引量:20
9
作者 赵红玲 宋瀚涛 +1 位作者 牛振东 刘桂山 《计算机应用研究》 CSCD 北大核心 2005年第6期67-69,共3页
针对框架式页面存在的问题,对数据预处理过程进行了改进,在数据清洗和用户识别部分添加了页面过滤部分,同时对预处理过程中的页面过滤算法和用户识别策略也进行了改进。
关键词 数据挖掘 WEB日志挖掘 数据预处理
在线阅读 下载PDF
Web日志挖掘中的会话识别方法 被引量:13
10
作者 周爱武 程博 +1 位作者 李孙长 夏松 《计算机工程与设计》 CSCD 北大核心 2010年第5期936-938,964,共4页
为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法。该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的... 为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法。该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的定义。最后利用数据库编程实现该方法,将识别出的会话存储在数据库中,便于后续数据挖掘使用。实验结果表明,该方法能识别出更多的用户会话,且识别会话的准确率也更高。 展开更多
关键词 数据预处理 WEB日志 会话识别 站点首页 数据库
在线阅读 下载PDF
基于Hadoop/Hive的web日志分析系统的设计 被引量:24
11
作者 刘永增 张晓景 李先毅 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第A01期314-317,共4页
互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大。如何存储、处理大规模数据就成了新的挑战。云计算技术的出现,为这类问题的解决提供了一种思路。云计算将数据通过网络分布到集群的... 互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大。如何存储、处理大规模数据就成了新的挑战。云计算技术的出现,为这类问题的解决提供了一种思路。云计算将数据通过网络分布到集群的各个计算节点上,从而完成大规模数据的存储和运算。Hadoop是一个用于构建云计算平台的流行的开源框架,广泛应用于海量数据的处理。但利用Hadoop处理数据,用户必须自己开发Map/Reduce程序。这种程序处于比较低的层次,用户不容易掌握,而且难于维护。Hive是一个基于Hadoop的开源数据仓库工具,它能够将文件映射成数据表,并提供类SQL语句,简化了用户的开发。利用Hadoop、Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度。通过与单机实验的对比,证明系统是有效的和有价值的。 展开更多
关键词 WEB日志 云计算 HADOOP Hive
在线阅读 下载PDF
基于页面内容和站点结构的页面聚类挖掘算法 被引量:20
12
作者 杨怡玲 管旭东 尤晋元 《软件学报》 EI CSCD 北大核心 2002年第3期467-469,共3页
提出了结合站点拓扑结构和Web页面内容的页面聚类改进算法,改进算法引入Web页面的内容链接比和页组的组内链接度,并修改了频繁访问页组支持度的计算公式,以此来提高挖掘结果的兴趣性.通过实验数据的比较,改进算法较一般算法的收敛性好,... 提出了结合站点拓扑结构和Web页面内容的页面聚类改进算法,改进算法引入Web页面的内容链接比和页组的组内链接度,并修改了频繁访问页组支持度的计算公式,以此来提高挖掘结果的兴趣性.通过实验数据的比较,改进算法较一般算法的收敛性好,发现的频繁访问页组的兴趣性高. 展开更多
关键词 日志分析 页面内容 站点结构 数据库 数据挖掘 页面聚类挖掘算法
在线阅读 下载PDF
Web日志挖掘预处理中的用户识别技术 被引量:21
13
作者 吴强 梁继民 杨万海 《计算机科学》 CSCD 北大核心 2002年第4期64-66,共3页
1引言 互联网技术和应用的迅速发展使得可以从因特网获取的信息量日益剧增,因此迫切需要一种新的技术从这些信息中快速、及时地发现有用的知识,提高信息的利用率.作为数据挖掘技术[1]研究的一个重要领域,Web日志挖掘(Web L0gMining)是... 1引言 互联网技术和应用的迅速发展使得可以从因特网获取的信息量日益剧增,因此迫切需要一种新的技术从这些信息中快速、及时地发现有用的知识,提高信息的利用率.作为数据挖掘技术[1]研究的一个重要领域,Web日志挖掘(Web L0gMining)是从服务器日志文件内大量的用户访问记录中抽取有用信息的过程.通过对Web日志的分析,可以构造出用户的行为模式,对于分析改进网络性能、优化网站的设计和拓扑结构以及改善企业的市场营销决策等会有极大的帮助[2,3]. 展开更多
关键词 因特网 服务器 WEB 日志挖掘预处理 用户识别
在线阅读 下载PDF
Web日志挖掘中的序列模式识别 被引量:23
14
作者 陆丽娜 魏恒义 +1 位作者 杨怡玲 管旭东 《小型微型计算机系统》 EI CSCD 北大核心 2000年第5期481-483,共3页
Web日志挖掘的基本思想是将数据挖掘技术应用于 Web服务器的日志文件 .本文从 Web日志挖掘过程预处理阶段的结果用户会话文件开始 ,提出了一种基于扩展有向树模型进行用户浏览模式识别的 Web日志挖掘方法 ,并在实验室对该方法进行了简... Web日志挖掘的基本思想是将数据挖掘技术应用于 Web服务器的日志文件 .本文从 Web日志挖掘过程预处理阶段的结果用户会话文件开始 ,提出了一种基于扩展有向树模型进行用户浏览模式识别的 Web日志挖掘方法 ,并在实验室对该方法进行了简单实现和实际日志数据的测试 . 展开更多
关键词 WEB 日志挖掘 序列模式识别 数据挖掘
在线阅读 下载PDF
Web日志挖掘中的数据预处理技术 被引量:22
15
作者 李燕 冯博琴 鲁晓锋 《计算机工程》 CAS CSCD 北大核心 2009年第22期44-46,49,共4页
数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中... 数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中的记录引用信息较完整的情况下,该方法可以高效地获得用户的访问路径。 展开更多
关键词 WEB日志挖掘 数据预处理 用户会话识别 路径补充
在线阅读 下载PDF
基于云模型的Web日志数据挖掘技术 被引量:9
16
作者 岳训 孙忠林 +1 位作者 张艳琦 李光忠 《计算机应用研究》 CSCD 北大核心 2001年第11期113-116,共4页
提出了一种基于云模型理论测试网页对访问者吸引程度的Web日志挖掘方法 ,协助管理者优化站点结构 。
关键词 数据挖掘 WEB 日志挖掘 云模型 数据库
在线阅读 下载PDF
基于Web日志的用户访问路径提取与分析 被引量:7
17
作者 刘颖 彭赓 +2 位作者 吕本富 陈杰 梅梅 《情报学报》 CSSCI 北大核心 2009年第4期548-556,共9页
线上购物相对线下购物的一个特点是可以将用户的购物过程记录到网站的Web日志中,为研究用户网上行为特征提供必要的数据支持。本文详细介绍了对Web日志数据进行预处理的一系列步骤和方法,并以某出版社网站18天的日志数据为实证,提取出... 线上购物相对线下购物的一个特点是可以将用户的购物过程记录到网站的Web日志中,为研究用户网上行为特征提供必要的数据支持。本文详细介绍了对Web日志数据进行预处理的一系列步骤和方法,并以某出版社网站18天的日志数据为实证,提取出用户的访问路径(访问页面的先后次序),分析路径信息得到用户在不同页面之间访问的转换概率,从而定量地衡量购物流程中各步骤之间的转换率和贡献率,提炼出用户最有可能的前向转换路径和后向转换路径,以期对网站流程优化和商品促销设置提供决策支持。 展开更多
关键词 WEB日志 数据预处理 访问路径 转换概率
在线阅读 下载PDF
Web日志文件的异常数据挖掘算法及其应用 被引量:11
18
作者 赵泽茂 何坤金 +2 位作者 陈鹏 景雪琴 蒋霞东 《计算机工程》 CAS CSCD 北大核心 2003年第17期195-196,F003,共3页
从数量化角度给出了异常数据的一般性定义,以Web服务器日志文件数据为依据,讨论了挖掘异常数据的方法和途径;给出了基于距离的单指标的离散统计法和综合统计法,并结合校园网作了实际的分析处理。结果表明,该方法是可行的。
关键词 异常数据 数据挖掘 WEB日志 上网行为模式
在线阅读 下载PDF
一种基于有向树挖掘Web日志中最大频繁访问模式的方法 被引量:9
19
作者 詹宇斌 殷建平 +2 位作者 张玲 龙军 程杰仁 《计算机应用》 CSCD 北大核心 2006年第7期1662-1665,共4页
提出了一种基于Apriori思想的挖掘最大频繁访问模式的s-Tree算法。该算法使用有向树表示用户会话,能挖掘出最大前向引用事务和用户的浏览偏爱路径;使用一种基于内容页面优先的支持度计算方法,能挖掘出传统算法不能发现的特定的用户访问... 提出了一种基于Apriori思想的挖掘最大频繁访问模式的s-Tree算法。该算法使用有向树表示用户会话,能挖掘出最大前向引用事务和用户的浏览偏爱路径;使用一种基于内容页面优先的支持度计算方法,能挖掘出传统算法不能发现的特定的用户访问模式;使用频繁模式树连接分层的频繁弧克服了图结构数据挖掘算法中直接连接两个频繁模式树要判断连接条件的缺点,同时采用预剪枝策略,降低了算法的开销。实验表明,s-Tree算法具有可扩展性,运行效率比直接采用图结构数据挖掘算法要高。 展开更多
关键词 WEB使用挖掘 最大频繁访问模式 有向树 WEB日志
在线阅读 下载PDF
基于Web日志挖掘的网站结构优化方法 被引量:12
20
作者 鲍钰 黄国兴 张召 《计算机工程》 CAS CSCD 北大核心 2003年第12期82-84,共3页
通过对Web日志信息的分析挖掘,以及辅助适量编程和两个算法:GTPFWLP(Get True Path From Web Log Path )和CBP(Confirm Backtrack Point),实现了回溯点和目标页的确定,并最终实现了网站物理结构的调整和再组织。
关键词 WEB日志 GTPFWLP CBP 支持度
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部