期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
Web日志的高效多能挖掘算法 被引量:115
1
作者 宋擒豹 沈钧毅 《计算机研究与发展》 EI CSCD 北大核心 2001年第3期328-333,共6页
通过对 Web服务器日志文件和客户交易数据进行分析 ,可以发现相似客户群体、相关 Web页面和频繁访问路径 .提出了一种新颖的 Web日志挖掘算法 .在该算法中 ,首先以 Web站点 URL 为行、以 User ID为列建立URL- User ID关联矩阵 ,元素值... 通过对 Web服务器日志文件和客户交易数据进行分析 ,可以发现相似客户群体、相关 Web页面和频繁访问路径 .提出了一种新颖的 Web日志挖掘算法 .在该算法中 ,首先以 Web站点 URL 为行、以 User ID为列建立URL- User ID关联矩阵 ,元素值为用户的访问次数 ,然后 ,对列向量进行相似性分析得到相似客户群体 ,对行向量进行相似性度量获得相关 Web页面 ,对后者再进一步处理还可以发现频繁访问路径 . 展开更多
关键词 电子商务 web 日志挖掘 INTERNET 数据挖掘 算法
在线阅读 下载PDF
基于群体智慧的Web访问日志会话主题识别研究 被引量:5
2
作者 方奇 刘奕群 +2 位作者 张敏 茹立云 马少平 《中文信息学报》 CSCD 北大核心 2011年第1期35-40,共6页
Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前... Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,该文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题识别算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。 展开更多
关键词 会话主题识别 web访问日志
在线阅读 下载PDF
基于Web日志的用户访问模式挖掘 被引量:15
3
作者 王新 马万青 潘文林 《计算机工程与应用》 CSCD 北大核心 2006年第21期156-158,共3页
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。
关键词 web日志挖掘 访问模式 粗糙集 聚类
在线阅读 下载PDF
一种基于有向树挖掘Web日志中最大频繁访问模式的方法 被引量:9
4
作者 詹宇斌 殷建平 +2 位作者 张玲 龙军 程杰仁 《计算机应用》 CSCD 北大核心 2006年第7期1662-1665,共4页
提出了一种基于Apriori思想的挖掘最大频繁访问模式的s-Tree算法。该算法使用有向树表示用户会话,能挖掘出最大前向引用事务和用户的浏览偏爱路径;使用一种基于内容页面优先的支持度计算方法,能挖掘出传统算法不能发现的特定的用户访问... 提出了一种基于Apriori思想的挖掘最大频繁访问模式的s-Tree算法。该算法使用有向树表示用户会话,能挖掘出最大前向引用事务和用户的浏览偏爱路径;使用一种基于内容页面优先的支持度计算方法,能挖掘出传统算法不能发现的特定的用户访问模式;使用频繁模式树连接分层的频繁弧克服了图结构数据挖掘算法中直接连接两个频繁模式树要判断连接条件的缺点,同时采用预剪枝策略,降低了算法的开销。实验表明,s-Tree算法具有可扩展性,运行效率比直接采用图结构数据挖掘算法要高。 展开更多
关键词 web使用挖掘 最大频繁访问模式 有向树 web日志
在线阅读 下载PDF
基于过滤器的Web访问模式挖掘 被引量:2
5
作者 佟强 周园春 +1 位作者 吴开超 阎保平 《计算机工程》 CAS CSCD 北大核心 2007年第6期59-61,共3页
针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算... 针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算法。目前该方法已经广泛地应用于科学数据库系统中。 展开更多
关键词 数据挖掘 web日志 访问模式 频集
在线阅读 下载PDF
Web访问序列模式挖掘算法的研究 被引量:2
6
作者 李陶深 王伟娜 陈庆峰 《计算机科学》 CSCD 北大核心 2013年第12期41-44,共4页
针对现有Web访问序列模式挖掘算法和PrefixSpan算法存在的问题,提出一种基于投影位置的Web访问序列模式挖掘算法(PWSPM)。该算法通过序列模式分析,发现用户的行为模式,预测用户对网页的访问模式,进而改进站点的性能和组织结构,提高用户... 针对现有Web访问序列模式挖掘算法和PrefixSpan算法存在的问题,提出一种基于投影位置的Web访问序列模式挖掘算法(PWSPM)。该算法通过序列模式分析,发现用户的行为模式,预测用户对网页的访问模式,进而改进站点的性能和组织结构,提高用户查找信息的质量和效率,以及对用户开展个性化的信息服务。实验和应用结果表明,提出的算法具有更好的执行效率,适用于Web日志挖掘,可用于构建智能化Web站点和解决个性化的信息服务问题。 展开更多
关键词 web访问 序列模式 数据挖掘 PREFIXSPAN算法 web日志挖掘
在线阅读 下载PDF
Web日志挖掘中数据预处理技术的研究 被引量:19
7
作者 马瑞民 李向云 《计算机工程与设计》 CSCD 北大核心 2007年第10期2358-2360,共3页
在Web日志挖掘中数据预处理是整个挖掘过程的基础,由于客户端缓存的存在,在已往的预处理过程中都是通过路径补充技术得到用户完整的访问路径之后,才能进行事务识别。提出了一种只需根据网站的拓扑结构,不需要使用路径补充技术,由用户访... 在Web日志挖掘中数据预处理是整个挖掘过程的基础,由于客户端缓存的存在,在已往的预处理过程中都是通过路径补充技术得到用户完整的访问路径之后,才能进行事务识别。提出了一种只需根据网站的拓扑结构,不需要使用路径补充技术,由用户访问序列直接生成事务的算法。 展开更多
关键词 web日志挖掘 数据预处理 路径补充 访问序列 访问事务
在线阅读 下载PDF
面向Web活跃用户的树型访问模式挖掘算法
8
作者 贝毅君 陈刚 董金祥 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2009年第6期1005-1013,1140,共10页
传统Web挖掘技术面向所有Web用户,而访问网站时活跃用户与非活跃用户表现特征不同.基于此,提出一种面向活跃用户的访问模式挖掘方法,包括活跃用户会话提取算法(AUSM)和树型访问模式挖掘算法(WAP-BUM).AUSM扫描一遍日志数据即可挖掘Web... 传统Web挖掘技术面向所有Web用户,而访问网站时活跃用户与非活跃用户表现特征不同.基于此,提出一种面向活跃用户的访问模式挖掘方法,包括活跃用户会话提取算法(AUSM)和树型访问模式挖掘算法(WAP-BUM).AUSM扫描一遍日志数据即可挖掘Web活跃用户并提取会话信息,在提取的用户会话信息基础上,利用网站拓扑结构给出了一种基于树结构的频繁访问模式挖掘算法(WAPBUM).WAPBUM针对Web日志挖掘特点,通过对子树构造等价类,自下而上产生频繁子树.人工数据集和真实数据集上的实验都证明AUSM算法的运行时间与Web日志数据量成线性关系,且运行过程中内存保持稳定;WAPBUM在处理带根子树挖掘时明显快于FREQT算法,所挖掘结果可有效应用于网站结构分析. 展开更多
关键词 web使用挖掘 web访问模式 web日志 活跃用户 频繁子树
在线阅读 下载PDF
基于兴趣度的Web用户访问模式分析 被引量:8
9
作者 吕佳 《计算机工程与设计》 CSCD 北大核心 2007年第10期2403-2404,2407,共3页
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容。构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度。应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实... Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容。构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度。应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的。 展开更多
关键词 web日志 用户兴趣度 用户访问模式 模糊C-均值 聚类分析
在线阅读 下载PDF
由Web日志确定页面访问时间的方法研究 被引量:2
10
作者 霍晓钢 《计算机工程与设计》 CSCD 北大核心 2010年第10期2416-2418,F0003,共4页
为了获取用户访问页面的行为全过程以及准确时间,在网站中建立自动记录离开访问页面机制,准确的记录了用户访问页面的行为的全过程,确保访问日志的完整性和准确性。在此基础上,提出了服务器访问日志数据清理算法,确保准确提取出页面访... 为了获取用户访问页面的行为全过程以及准确时间,在网站中建立自动记录离开访问页面机制,准确的记录了用户访问页面的行为的全过程,确保访问日志的完整性和准确性。在此基础上,提出了服务器访问日志数据清理算法,确保准确提取出页面访问时间,从而解决了常见的页面访问时间算法不能准确确定每个页面被访问的确切时间的问题。 展开更多
关键词 web挖掘 访问时间 访问行为 数据清理 访问日志
在线阅读 下载PDF
基于WEB日志挖掘优化VOD系统中影片的归类
11
作者 翁小兰 孙蕾 《计算机应用与软件》 CSCD 北大核心 2007年第10期125-127,共3页
提出一种从Web日志出发根据用户访问路径找出用户期望的影片归类的方法,通过该方法可以优化视频点播系统的站点结构,提高用户访问效率。算法的主要思想是基于Web日志统计出用户在查找目标影片过程中经过的类别页,并把这些类别页对应的... 提出一种从Web日志出发根据用户访问路径找出用户期望的影片归类的方法,通过该方法可以优化视频点播系统的站点结构,提高用户访问效率。算法的主要思想是基于Web日志统计出用户在查找目标影片过程中经过的类别页,并把这些类别页对应的类别作为用户的候选期望归类,最后根据影片各类别的期望支持度确定影片的恰当归类。 展开更多
关键词 VOD 网络日志 访问模式 期望支持度
在线阅读 下载PDF
Web日志中RCFA路径的挖掘方法
12
作者 许晓东 李柯 朱士瑞 《计算机工程》 CAS CSCD 北大核心 2010年第22期55-57,共3页
研究从Web日志中快速挖掘出可重复连续频繁访问路径的方法。针对现有挖掘算法存在的一些问题,将矩阵应用于挖掘过程中,给出CA矩阵的概念,并利用该矩阵来挖掘可重复连续挖掘频繁访问路径,从而无需多次扫描数据库,避免产生庞大的中间项,... 研究从Web日志中快速挖掘出可重复连续频繁访问路径的方法。针对现有挖掘算法存在的一些问题,将矩阵应用于挖掘过程中,给出CA矩阵的概念,并利用该矩阵来挖掘可重复连续挖掘频繁访问路径,从而无需多次扫描数据库,避免产生庞大的中间项,从一定程度上简化了挖掘过程。实验表明该算法的准确性和高效性。 展开更多
关键词 web日志 连续频繁访问路径 CA矩阵 中间项
在线阅读 下载PDF
Web用户聚类中访问路径差异性度量方法的研究
13
作者 牛晓晨 王劲松 邢高峰 《计算机应用与软件》 CSCD 北大核心 2013年第3期196-199,共4页
用户访问路径是Web用户聚类时度量用户兴趣度的参数之一。结合日志记录的特点,从参数的数学特征出发,设计一种基于二进制数表示的访问路径矩阵来度量用户的兴趣度,并给出新的相异度矩阵构造法。实验表明,所提出的访问路径矩阵是可行的,... 用户访问路径是Web用户聚类时度量用户兴趣度的参数之一。结合日志记录的特点,从参数的数学特征出发,设计一种基于二进制数表示的访问路径矩阵来度量用户的兴趣度,并给出新的相异度矩阵构造法。实验表明,所提出的访问路径矩阵是可行的,生成的相异度矩阵在表现用户访问路径差异上是准确的。 展开更多
关键词 web用户聚类 访问路径矩阵 相异度矩阵 日志文件
在线阅读 下载PDF
基于用户访问模式的Web预取算法
14
作者 张晓丽 壮志剑 史明 《计算机工程与设计》 CSCD 北大核心 2009年第22期5109-5111,共3页
缩短Web访问中的用户感知时间,是Web应用中的一个重要问题,服务器需要预测用户未来的HTTP请求和处理当前的网页以提高Web服务器的响应速度,为此提出了一种基于用户访问模式的Web预取算法。该算法根据Web日志信息分析了用户的访问模式,... 缩短Web访问中的用户感知时间,是Web应用中的一个重要问题,服务器需要预测用户未来的HTTP请求和处理当前的网页以提高Web服务器的响应速度,为此提出了一种基于用户访问模式的Web预取算法。该算法根据Web日志信息分析了用户的访问模式,并计算出Web页面间的转移概率,以此作为对用户未来请求预取的依据。实验结果表明,该预取算法能有效提高预测精度和命中率,有效地缩短了用户的感知时间。 展开更多
关键词 用户感知时间 访问模式 预取 web日志 用户会话
在线阅读 下载PDF
基于Markov链和关联规则的Web访问预测模型 被引量:1
15
作者 林惠珍 杨晨晖 +1 位作者 李翠华 陈希友 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第4期476-481,共6页
用户访问预测是根据用户的历史访问信息和当前的访问路径预测用户下一步或将来可能访问的页面.因此可以利用预测结果提高服务器的性能,提高缓存的利用率和为用户提供个性化服务.提出了基于Markov链和关联规则的预测模型MAPM(Markov chai... 用户访问预测是根据用户的历史访问信息和当前的访问路径预测用户下一步或将来可能访问的页面.因此可以利用预测结果提高服务器的性能,提高缓存的利用率和为用户提供个性化服务.提出了基于Markov链和关联规则的预测模型MAPM(Markov chain and association rule prediction model),该模型首先使用二阶Markov链找到用户下一步或将来可能访问的页面集,生成预测候选集;然后再使用二项关联规则从正向和反向两个角度修正Markov的预测结果,从而生成最后的预测页面. 展开更多
关键词 web日志挖掘 MARKOV 关联规则 访问预测
在线阅读 下载PDF
Web日志挖掘中GITC算法的改进 被引量:3
16
作者 郭维 《计算机工程》 CAS CSCD 北大核心 2008年第4期60-62,共3页
GITC算法和Tree-DM算法都是基于交集关系的挖掘算法。文章分析这2个算法的性能特点,提出一种GITC算法的改进算法:GI算法。该算法利用适当的数据结构来保存支持数信息,省去了扫描原数据库来统计支持数耗费的大量时间,并解决了Tree-DM算... GITC算法和Tree-DM算法都是基于交集关系的挖掘算法。文章分析这2个算法的性能特点,提出一种GITC算法的改进算法:GI算法。该算法利用适当的数据结构来保存支持数信息,省去了扫描原数据库来统计支持数耗费的大量时间,并解决了Tree-DM算法在二次求交、冗余求交等方面存在的问题。经过实验验证,较GITC算法而言,GI算法可以更高效地挖掘用户频繁访问模式。 展开更多
关键词 web日志挖掘 频繁访问模式 交集关系
在线阅读 下载PDF
基于行为的Web用户满意模型
17
作者 张凌华 张莉 +1 位作者 LEW Philip 王守信 《计算机应用研究》 CSCD 北大核心 2010年第5期1802-1805,1812,共5页
在激烈的商业竞争中,努力使得用户满意是企业成功的根本保证之一。分析用户对产品以及服务的满意情况对产品的改进具有直接推动作用,但是在复杂多变的网络环境下,基于用户主观打分的满意分析方法和理论在时效性及灵活性上存在不足。提... 在激烈的商业竞争中,努力使得用户满意是企业成功的根本保证之一。分析用户对产品以及服务的满意情况对产品的改进具有直接推动作用,但是在复杂多变的网络环境下,基于用户主观打分的满意分析方法和理论在时效性及灵活性上存在不足。提出了一个基于行为的Web用户满意模型,以Web访问日志为数据来源,通过分析用户的访问行为来研究用户的客观满意。此模型针对分析对象实时获取、分析用户的访问信息和客观满意情况,保证了较好的时效性和灵活性。 展开更多
关键词 用户满意 用户行为 web访问日志
在线阅读 下载PDF
基于BIPL的Web频繁访问模式挖掘
18
作者 吴雅双 张东站 《计算机工程与应用》 CSCD 北大核心 2008年第23期136-138,156,共4页
挖掘频繁访问模式是Web日志挖掘的一个重要任务。针对类Apriori算法和GITC算法的不足,提出了基于双亲链的单次扫描求交的Web频繁访问模式挖掘算法—BIPL,该算法首先对用户的访问模式两两进行交集运算,生成候选访问模式,并在求交集过程... 挖掘频繁访问模式是Web日志挖掘的一个重要任务。针对类Apriori算法和GITC算法的不足,提出了基于双亲链的单次扫描求交的Web频繁访问模式挖掘算法—BIPL,该算法首先对用户的访问模式两两进行交集运算,生成候选访问模式,并在求交集过程中保存各个候选访问模式的双亲模式,然后通过简单的求和运算,计算出各个候选访问模式的支持数。最后通过理论分析和实验验证,该算法是稳定的和高效的。 展开更多
关键词 web日志挖掘 交集关系 频繁访问模式
在线阅读 下载PDF
一种从Web日志中挖掘用户浏览偏爱路径的算法 被引量:1
19
作者 杨旭东 《重庆理工大学学报(自然科学)》 CAS 2012年第10期82-88,共7页
针对当前Web站点设计与管理的复杂性以及优化其拓扑结构的需要,提出了一种从Web日志中挖掘用户浏览偏爱路径的算法。该算法引入反映页面浏览频率的访问矩阵与支持-偏爱度,得到访问矩阵行向量间的Hamming距离矩阵,将相似性阈值与其元素... 针对当前Web站点设计与管理的复杂性以及优化其拓扑结构的需要,提出了一种从Web日志中挖掘用户浏览偏爱路径的算法。该算法引入反映页面浏览频率的访问矩阵与支持-偏爱度,得到访问矩阵行向量间的Hamming距离矩阵,将相似性阈值与其元素值逐一比较,获得候选兴趣子路径2-项集,根据支持-偏爱度阈值,将子路径集中不符的子路径剔除,合并子路径,生成用户浏览偏爱路径。实验结果证明了该算法的有效性。 展开更多
关键词 浏览偏爱路径 站点访问矩阵 支持-偏爱度 HAMMING距离 web日志挖掘
在线阅读 下载PDF
面向用户互联网访问日志的异常点击分析 被引量:5
20
作者 王倩 刘奕群 +1 位作者 马少平 茹立云 《中文信息学报》 CSCD 北大核心 2010年第3期44-48,61,共6页
随着互联网用户人数的日益增长,用户行为分析已经成为互联网技术领域重要的研究方法之一。在日志中去除异常点击,对于准确挖掘用户行为的意图和习惯十分重要。该文采用某公司提供的真实用户互联网访问日志,对日志中的连续点击,单IP多用... 随着互联网用户人数的日益增长,用户行为分析已经成为互联网技术领域重要的研究方法之一。在日志中去除异常点击,对于准确挖掘用户行为的意图和习惯十分重要。该文采用某公司提供的真实用户互联网访问日志,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击,从访问集中度,用户平均访问量等方面进行了分析。我们认为对于连续点击,用户行为分析研究人员可以分情况滤去多余点击或该用户所有点击,而对于单IP多用户和单用户多IP的点击,我们建议不做处理。 展开更多
关键词 计算机应用 中文信息处理 用户行为分析 互联网访问日志 异常点击
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部