期刊文献+
共找到455篇文章
< 1 2 23 >
每页显示 20 50 100
基于Web-Log Mining的Web文档聚类 被引量:29
1
作者 苏中 马少平 +1 位作者 杨强 张宏江 《软件学报》 EI CSCD 北大核心 2002年第1期99-104,共6页
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(re... 速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN. 展开更多
关键词 数据库 聚类 数据挖掘 web 文档 web-Logmining
在线阅读 下载PDF
基于Web-Log Mining的N元预测模型 被引量:14
2
作者 苏中 马少平 +1 位作者 杨强 张宏江 《软件学报》 EI CSCD 北大核心 2002年第1期136-141,共6页
随着Web上用户访问信息的不断增加,特别是Web服务器可提供大量的日志文件,使得有可能对这些大数据集进行知识挖掘,例如,对用户未来的访问进行预测.提出了一种利用服务器日志文件,运用N元(N-gram)预测模型对用户未来可能进行的Web访问请... 随着Web上用户访问信息的不断增加,特别是Web服务器可提供大量的日志文件,使得有可能对这些大数据集进行知识挖掘,例如,对用户未来的访问进行预测.提出了一种利用服务器日志文件,运用N元(N-gram)预测模型对用户未来可能进行的Web访问请求进行预测.这种模型会选择性地对用户可预测的请求进行预测,从而大大提高了预测精度.实验证明,在自然语言中普遍适用的N元预测模型同样适用于网页预测.同时,采用了一种有效的简化手段,大大压缩了模型的大小,使得5元模型和传统的2元模型大小基本相同,而预测精度提高了1倍.该结果可以广泛地运用到Web上,包括网页的预发送、预取、推荐以及Web上的caching机制.试验是建立在真实的Web日志上的,该算法无论在预测精度上还是在可适用度上都优于以往的算法. 展开更多
关键词 数据挖掘 INTERNET web-Logmining N元预测模型 网页
在线阅读 下载PDF
Approach based on wavelet analysis for detecting and amending anomalies in dataset 被引量:1
3
作者 彭小奇 宋彦坡 +1 位作者 唐英 张建智 《Journal of Central South University of Technology》 EI 2006年第5期491-495,共5页
It is difficult to detect the anomalies whose matching relationship among some data attributes is very different from others’ in a dataset. Aiming at this problem, an approach based on wavelet analysis for detecting ... It is difficult to detect the anomalies whose matching relationship among some data attributes is very different from others’ in a dataset. Aiming at this problem, an approach based on wavelet analysis for detecting and amending anomalous samples was proposed. Taking full advantage of wavelet analysis’ properties of multi-resolution and local analysis, this approach is able to detect and amend anomalous samples effectively. To realize the rapid numeric computation of wavelet translation for a discrete sequence, a modified algorithm based on Newton-Cores formula was also proposed. The experimental result shows that the approach is feasible with good result and good practicality. 展开更多
关键词 data preprocessing wavelet analysis anomaly detecting data mining
在线阅读 下载PDF
基于机器学习的煤系地层TBM掘进巷道围岩强度预测 被引量:3
4
作者 丁自伟 高成登 +6 位作者 景博宇 黄兴 刘滨 胡阳 桑昊旻 徐彬 秦立学 《西安科技大学学报》 北大核心 2025年第1期49-60,共12页
为研究全断面掘进机(TBM)掘进参数与煤系地层岩体力学参数之间的互馈关系,准确、实时预测巷道围岩强度特征,基于TBM掘进过程中的现场监测,通过岩-机互馈关系分析,确定模型的输入特征参数,并建立了对应的数据库;将梯度提升决策树(GBDT)... 为研究全断面掘进机(TBM)掘进参数与煤系地层岩体力学参数之间的互馈关系,准确、实时预测巷道围岩强度特征,基于TBM掘进过程中的现场监测,通过岩-机互馈关系分析,确定模型的输入特征参数,并建立了对应的数据库;将梯度提升决策树(GBDT)、随机森林(RF)、支持向量回归(SVR)3种机器学习算法作为基学习器,线性回归(LR)算法作为元学习器,提出了一种基于Stacking集成算法的预测模型,并对比分析了Stacking集成算法与单一机器学习算法模型的预测性能。结果表明:二值判别与箱线图可有效对原始数据进行预处理;模型的主要输入特征参数为刀盘推力F、刀盘扭矩T、贯入度FPI、刀盘转速RPM、刀盘振动加速度A;Stacking模型在测试集上的拟合优度可达0.976,而均方误差、平均绝对误差、平均绝对百分误差分别仅有0.031,0.148和0.092,与其他3种模型相比,其拟合优度最高,误差指标数值最小,集成模型具有更高的预测精度,能够有效地预测煤矿TBM掘进巷道围岩点荷载强度。研究验证了Stacking模型的准确性,可为煤矿TBM掘进参数控制和巷道支护参数调整提供科学的参考依据。 展开更多
关键词 煤矿全断面掘进机 TBM掘进参数 Stacking集成算法 数据预处理 围岩强度预测
在线阅读 下载PDF
Web使用模式研究中的数据挖掘 被引量:55
5
作者 张娥 冯秋红 +1 位作者 宣慧玉 田增瑞 《计算机应用研究》 CSCD 北大核心 2001年第3期80-83,共4页
Web使用模式挖掘是利用Web使用数据的高级手段,是对Web使用数据的深层次分析,从而挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的知识,以帮助管理决策。综述了Web使用模式的数据挖掘研究技术的内容、现状和研究的方向。
关键词 数据挖掘 事务数据库 web 用户访问模式 INTERNET
在线阅读 下载PDF
Web日志挖掘中的数据预处理技术研究 被引量:62
6
作者 赵伟 何丕廉 +1 位作者 陈霞 谢振亮 《计算机应用》 CSCD 北大核心 2003年第5期62-64,67,共4页
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。
关键词 数据挖掘 web日志挖掘 数据预处理
在线阅读 下载PDF
Web挖掘研究综述 被引量:49
7
作者 涂承胜 鲁明羽 陆玉昌 《计算机工程与应用》 CSCD 北大核心 2003年第10期90-93,共4页
论文介绍了Web挖掘的概念,指出了Web挖掘中存在的问题,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,针对每一种分类介绍了各自的研究对象、表示方法、处理方法、应用领域及最近的研究情况,同时展望了Web挖掘的... 论文介绍了Web挖掘的概念,指出了Web挖掘中存在的问题,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,针对每一种分类介绍了各自的研究对象、表示方法、处理方法、应用领域及最近的研究情况,同时展望了Web挖掘的未来研究方向。 展开更多
关键词 web INTERNET 搜索引擎 信息检索 数据库 数据处理 数据挖掘
在线阅读 下载PDF
Web使用信息挖掘综述 被引量:50
8
作者 郭岩 白硕 于满泉 《计算机科学》 CSCD 北大核心 2005年第1期1-7,共7页
Web使用信息挖掘可以帮助我们更好地理解Web和Web用户访问模式,这对于开发Web的最大经济潜力是非常关键的。一般来说,Web使用信息挖掘包含三个阶段:数据预处理,模式发现和模式分析。文章以这三个阶段为框架,分别介绍了数据预处理的技术... Web使用信息挖掘可以帮助我们更好地理解Web和Web用户访问模式,这对于开发Web的最大经济潜力是非常关键的。一般来说,Web使用信息挖掘包含三个阶段:数据预处理,模式发现和模式分析。文章以这三个阶段为框架,分别介绍了数据预处理的技术与困难,Web使用信息挖掘中常用的方法和算法,以及主要应用。 展开更多
关键词 数据挖掘 web挖掘 web使用信息挖掘 web用户访问模式 数据预处理 模式发现
在线阅读 下载PDF
Web日志挖掘中的数据预处理的研究 被引量:57
9
作者 陆丽娜 杨怡玲 +1 位作者 管旭东 魏恒义 《计算机工程》 EI CAS CSCD 北大核心 2000年第4期66-67,72,共3页
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的... 为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍了各过程的主要任务。 展开更多
关键词 数据挖掘 web 日志挖掘 数据预处理 数据库
在线阅读 下载PDF
Web挖掘研究 被引量:34
10
作者 陈新中 李岩 +1 位作者 谢永红 杨炳儒 《计算机工程与应用》 CSCD 北大核心 2002年第13期42-44,共3页
Internet的迅速发展,使得worldwideweb已经成为一个巨大的、蕴涵着具有潜在价值知识的分布式信息空间,为数据挖掘研究提供了丰富的资源的同时也提出了新的挑战。该文首先概述了数据挖掘的概念、挖掘算法及其主要应用领域,然后结合Web数... Internet的迅速发展,使得worldwideweb已经成为一个巨大的、蕴涵着具有潜在价值知识的分布式信息空间,为数据挖掘研究提供了丰富的资源的同时也提出了新的挑战。该文首先概述了数据挖掘的概念、挖掘算法及其主要应用领域,然后结合Web数据的多样性、丰富和动态的超链接信息以及Web用户访问信息,详细阐述了Web内容挖掘、Web结构挖掘和Web用户访问信息挖掘的概念、定义、主要的挖掘算法及最新研究进展,文章最后介绍了Web挖掘的研究方向和发展趋势。 展开更多
关键词 数据挖掘 web 数据库 INTERNET 信息服务
在线阅读 下载PDF
Web大数据环境下的不一致跨源数据发现 被引量:24
11
作者 余伟 李石君 +4 位作者 杨莎 胡亚慧 刘晶 丁永刚 王骞 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期295-308,共14页
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源We... Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性. 展开更多
关键词 web大数据 web数据挖掘 数据一致性 web数据管理 数据质量评估 跨源数据分析
在线阅读 下载PDF
Web使用挖掘:从Web数据中发现用户使用模式 被引量:21
12
作者 陈恩红 徐涌 王煦法 《计算机科学》 CSCD 北大核心 2001年第5期85-88,共4页
1. 引言 在Web(因特网)上进行交易具有简易、快速、高效等特点,基于Web的电子商务正以飞快的速度发展着.尤其是面向最终用户的B2C模式的电子商务,正面临着一场革命性的改变.最新的技术已能够追踪用户的浏览行为,这就使得商家有能力为每... 1. 引言 在Web(因特网)上进行交易具有简易、快速、高效等特点,基于Web的电子商务正以飞快的速度发展着.尤其是面向最终用户的B2C模式的电子商务,正面临着一场革命性的改变.最新的技术已能够追踪用户的浏览行为,这就使得商家有能力为每个用户定制个性化的产品,从而出现大规模定(mass customization)的现象.以上所描述的还只是Web使用挖掘(Web Usage Mining)的一种具体应用. 展开更多
关键词 web 数据库 知识发现 数据挖掘 用户使用模式
在线阅读 下载PDF
Web数据挖掘 被引量:120
13
作者 王实 高文 李锦涛 《计算机科学》 CSCD 北大核心 2000年第4期28-31,41,共5页
1 引言当前WWW正在深度和广度方面飞速地发展着,Internet也正在前所未有地改变我们的生活。WWW上的一些主要工作,例如Web站点设计、Web服务设计、Web站点的导航设计、电子商务等工作正变得越来越复杂和越来越繁重。从站点经营方来说,他... 1 引言当前WWW正在深度和广度方面飞速地发展着,Internet也正在前所未有地改变我们的生活。WWW上的一些主要工作,例如Web站点设计、Web服务设计、Web站点的导航设计、电子商务等工作正变得越来越复杂和越来越繁重。从站点经营方来说,他们需要好的自动辅助设计工具,可以根据用户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,开展有针对性的电子商务以更好地满足访问者的需求。从访问者来说,他们希望看到的是个性化的页面。 展开更多
关键词 电子商务 数据挖掘 数据库 web
在线阅读 下载PDF
基于Web的日志挖掘数据预处理方法的研究 被引量:33
14
作者 张健沛 刘建东 杨静 《计算机工程与应用》 CSCD 北大核心 2003年第10期191-193,共3页
随着www的广泛应用及相应的Web技术的出现,使数据挖掘的研究进入了一个新的阶段。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。论文针对基于日志的数据挖掘提出了前期的几种数据预处理方法,目的是分割服务器日志为... 随着www的广泛应用及相应的Web技术的出现,使数据挖掘的研究进入了一个新的阶段。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。论文针对基于日志的数据挖掘提出了前期的几种数据预处理方法,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了很好的算法实现。 展开更多
关键词 web 日志挖掘 数据预处理 数据库 数据挖掘 知识发现
在线阅读 下载PDF
Web日志挖掘中数据预处理的研究 被引量:20
15
作者 赵红玲 宋瀚涛 +1 位作者 牛振东 刘桂山 《计算机应用研究》 CSCD 北大核心 2005年第6期67-69,共3页
针对框架式页面存在的问题,对数据预处理过程进行了改进,在数据清洗和用户识别部分添加了页面过滤部分,同时对预处理过程中的页面过滤算法和用户识别策略也进行了改进。
关键词 数据挖掘 web日志挖掘 数据预处理
在线阅读 下载PDF
Web日志挖掘预处理中的Frame页面过滤算法 被引量:14
16
作者 杨怡玲 管旭东 尤晋元 《计算机工程》 CAS CSCD 北大核心 2001年第2期76-77,共2页
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式。在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法--Frame页面过滤算法消除其影响。通过实验数据对... Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式。在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法--Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。 展开更多
关键词 web 日志挖掘 数据预处理 数据挖掘 FrAme页面 过滤算法
在线阅读 下载PDF
Web使用挖掘数据预处理中的会话构造 被引量:11
17
作者 欧阳一鸣 汪曦东 +1 位作者 郭骏 刘红樱 《计算机工程与应用》 CSCD 北大核心 2005年第25期148-151,共4页
文章主要论述了在Web使用挖掘数据预处理中如何构造用户与网站之间的会话。首先,根据对Web服务器日志数据格式的分析,对会话概念进行了形式化描述;然后在分析目前会话构造方法的基础上,利用基于时间和引用的启发式方法来构造会话;最后... 文章主要论述了在Web使用挖掘数据预处理中如何构造用户与网站之间的会话。首先,根据对Web服务器日志数据格式的分析,对会话概念进行了形式化描述;然后在分析目前会话构造方法的基础上,利用基于时间和引用的启发式方法来构造会话;最后依据评估会话构造方法的标准,通过实验对给出的新会话构造方法与其他方法进行了分析比较。 展开更多
关键词 web使用挖掘 数据预处理 会话构造
在线阅读 下载PDF
KDW综述:基于Web的数据挖掘 被引量:19
18
作者 恽爽 韩立新 +1 位作者 董浚 陈道蓄 《计算机工程》 CAS CSCD 北大核心 2003年第1期284-286,共3页
由于Web数据所具有的半结构化特征,基于Web的数据挖掘与传统的基于数据库的数据挖掘有许多不同之处。基于Web的数据挖掘主要包括3种数据挖掘任务:对Web内容的挖掘,对Web结构的挖掘和对Web访问的挖掘。该文综述了基于Web的数据挖掘技... 由于Web数据所具有的半结构化特征,基于Web的数据挖掘与传统的基于数据库的数据挖掘有许多不同之处。基于Web的数据挖掘主要包括3种数据挖掘任务:对Web内容的挖掘,对Web结构的挖掘和对Web访问的挖掘。该文综述了基于Web的数据挖掘技术,并介绍了国内在这个领域的研究现状。 展开更多
关键词 KDW web 数据挖掘 知识获取 半结构化数据 数据库
在线阅读 下载PDF
Web使用挖掘技术研究 被引量:37
19
作者 涂承胜 陆玉昌 《小型微型计算机系统》 CSCD 北大核心 2004年第7期1177-1184,共8页
简要介绍了 WEB挖掘的基本概念及其分类 ,讨论了 Web使用挖掘的有关理论及其应用 .重点分析了 Web使用挖掘的主要研究对象和研究方法 ,包括 :挖掘的数据对象、数据的采集、数据预处理、模式发现、模式分析及其相关技术 .展望了
关键词 web挖掘 web网络使用挖掘 数据预处理 模式发现 模式分析
在线阅读 下载PDF
一种Web用户行为聚类算法 被引量:20
20
作者 业宁 李威 +1 位作者 梁作鹏 董逸生 《小型微型计算机系统》 CSCD 北大核心 2004年第7期1364-1367,共4页
提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法... 提出了一种新的路径相似度系数计算方法 ,并使之与雅可比相似系数结合 ,用于计算用户访问行为的相似度 ,在此基础之上又提出了一种分析 Web用户行为的聚类算法 (FCC) ,通过挖掘 Web日志 ,找出具有相似行为的 Web用户 .由于 FCC聚类算法过滤了小于指定阈值的相似度系数 ,大大缩小了数据规模 ,很好地解决了其他聚类算法 (如层次聚类 )在高维空间聚类时的“维数灾难”问题 ,最后的实验结果很好 . 展开更多
关键词 web日志 数据挖掘 聚类 相似度
在线阅读 下载PDF
上一页 1 2 23 下一页 到第
使用帮助 返回顶部