期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
Web日志数据挖掘的数据预处理方法研究 被引量:31
1
作者 张娥 郑斐峰 冯耕中 《计算机应用研究》 CSCD 北大核心 2004年第2期58-60,共3页
主要介绍了Web用户访问日志数据挖掘数据预处理过程,综述了国际上的研究现状,流行的预处理方法。在对用户访问行为的合理假定基础上,最后提出了基于综合最大前向参引模型和时间窗口模型的新方法。
关键词 Web用户访问日志数据挖掘 数据预处理方法
在线阅读 下载PDF
基于色谱-质谱平台的代谢组学数据预处理方法 被引量:6
2
作者 孙琳 张秋菊 +4 位作者 王文佶 曲思杨 谢彪 高兵 刘美娜 《中国卫生统计》 CSCD 北大核心 2017年第3期518-522,共5页
代谢组学的概念自20世纪90年代被正式提出,已被广泛应用于医学研究领域,其一般研究流程包括样本采集、样本检测、数据预处理、数据分析和生物学解释等。常用的样本检测技术有核磁共振(nuclear magnetic resonance,NMR)和高分辨率色谱... 代谢组学的概念自20世纪90年代被正式提出,已被广泛应用于医学研究领域,其一般研究流程包括样本采集、样本检测、数据预处理、数据分析和生物学解释等。常用的样本检测技术有核磁共振(nuclear magnetic resonance,NMR)和高分辨率色谱-质谱联用技术,本文所述方法针对后者。 展开更多
关键词 代谢组学 数据预处理方法 色谱-质谱 样本采集 医学研究领域 研究流程 数据分析 高分辨率 噪声强度 缺失数据
在线阅读 下载PDF
基于聚类分析的风电功率预测数据预处理方法 被引量:12
3
作者 张里 王兰 +4 位作者 李红军 廖小君 王婷婷 张江林 刘友波 《可再生能源》 CAS 北大核心 2018年第12期1871-1876,共6页
为了提高预测模型精度以及降低模型的复杂程度,减小模型的训练时间,文章提出一种基于改进模糊C均值聚类算法的数据预处理方法,以提高风电功率时间序列的预测模型的预测性能。首先,对实测风电功率混沌时间序列进行了相空间重构;其次,对... 为了提高预测模型精度以及降低模型的复杂程度,减小模型的训练时间,文章提出一种基于改进模糊C均值聚类算法的数据预处理方法,以提高风电功率时间序列的预测模型的预测性能。首先,对实测风电功率混沌时间序列进行了相空间重构;其次,对相空间中的各维输入序列与输出功率序列进行相关性分析,使用相点与相对相关系数的加权建立聚类判据;然后,结合减聚类算法对模糊C均值聚类的收敛速度进行改进,改进的模糊C均值算法将输入序列聚为4类,对每类数据建模。结果表明,对原始数据进行聚类预处理后,预测模型的精度得到了提高。 展开更多
关键词 数据预处理方法 风电预测 模糊C均值聚类 模糊模式识别 相关性分析
在线阅读 下载PDF
数据预处理在IT基础设施监控系统中的应用 被引量:2
4
作者 宋应湃 汪林林 宋华 《计算机工程与设计》 CSCD 北大核心 2007年第15期3770-3772,共3页
数据质量的优劣对数据挖掘的成败有着举足轻重的影响,而作为数据挖掘过程第一步的数据预处理就是为了确保数据质量而设,其研究方兴未艾。从数据质量的概念出发,介绍了数据预处理的体系结构和常用方法,根据IT基础设置监控系统中的数据特... 数据质量的优劣对数据挖掘的成败有着举足轻重的影响,而作为数据挖掘过程第一步的数据预处理就是为了确保数据质量而设,其研究方兴未艾。从数据质量的概念出发,介绍了数据预处理的体系结构和常用方法,根据IT基础设置监控系统中的数据特点,探讨了数据预处理技术在该类数据上的典型应用。 展开更多
关键词 I:T基础设施监控 数据挖掘 数据质量 数据预处理方法 数据预处理过程
在线阅读 下载PDF
多类不平衡数据分类方法综述 被引量:18
5
作者 李昂 韩萌 +2 位作者 穆栋梁 高智慧 刘淑娟 《计算机应用研究》 CSCD 北大核心 2022年第12期3534-3545,共12页
现实中许多领域产生的数据通常具有多个类别并且是不平衡的。在多类不平衡分类中,类重叠、噪声和多个少数类等问题降低了分类器的能力,而有效解决多类不平衡问题已经成为机器学习与数据挖掘领域中重要的研究课题。根据近年来的多类不平... 现实中许多领域产生的数据通常具有多个类别并且是不平衡的。在多类不平衡分类中,类重叠、噪声和多个少数类等问题降低了分类器的能力,而有效解决多类不平衡问题已经成为机器学习与数据挖掘领域中重要的研究课题。根据近年来的多类不平衡分类方法的文献,从数据预处理和算法级分类方法两方面进行了分析与总结,并从优缺点和数据集等方面对所有算法进行了详细分析。在数据预处理方法中,介绍了过采样、欠采样、混合采样和特征选择方法,对使用相同数据集算法的性能进行了比较。从基分类器优化、集成学习和多类分解技术三个方面对算法级分类方法展开介绍和分析。最后对多类不平衡数据分类研究领域的未来发展方向进行总结归纳。 展开更多
关键词 分类 多类不平衡数据 数据预处理方法 算法级分类方法
在线阅读 下载PDF
基于不确定性的空间聚类 被引量:8
6
作者 何彬彬 方涛 郭达志 《计算机科学》 CSCD 北大核心 2004年第11期196-198,F004,共4页
空间数据挖掘是指从空间数据库(空间数据仓库)中提取用户感兴趣的空间的和非空间的模式和规则的过程,空间聚类是空间数据挖掘最基本的任务。本文首先分析了空间数据挖掘过程中的不确定性,并以空间聚类为例具体分析空间聚类过程中的数据... 空间数据挖掘是指从空间数据库(空间数据仓库)中提取用户感兴趣的空间的和非空间的模式和规则的过程,空间聚类是空间数据挖掘最基本的任务。本文首先分析了空间数据挖掘过程中的不确定性,并以空间聚类为例具体分析空间聚类过程中的数据预处理方法。在此基础上,以EM算法为基础,顾及空间聚类的随机性和模糊性以及基于Delaunay图的空间对象的空间邻近关系,构建了基于不确定性的空间聚类算法。 展开更多
关键词 空间聚类 空间数据挖掘 空间对象 数据预处理方法 不确定性 EM算法 过程 空间数据仓库 空间数据 随机性
在线阅读 下载PDF
红外光谱结合偏最小二乘法快速检测油茶籽油脂肪酸组成的模型建立与评价 被引量:2
7
作者 陈品杰 吴雪辉 《中国油脂》 CAS CSCD 北大核心 2022年第12期112-118,共7页
为建立快速检测油茶籽油中脂肪酸组成的方法,利用傅里叶红外光谱仪扫描86个油茶籽油样品,红外光谱数据分别通过Savitzky-Golay平滑(SG)、多元散射校正(MSC)、标准正态变换(SNV)、一阶导数(FD)和二阶导数(SD)等5种方法进行降噪处理,然后... 为建立快速检测油茶籽油中脂肪酸组成的方法,利用傅里叶红外光谱仪扫描86个油茶籽油样品,红外光谱数据分别通过Savitzky-Golay平滑(SG)、多元散射校正(MSC)、标准正态变换(SNV)、一阶导数(FD)和二阶导数(SD)等5种方法进行降噪处理,然后以气相色谱测定的脂肪酸组成作为标准值,采用全波长偏最小二乘法(PLS)、区间偏最小二乘法(iPLS)和联合区间偏最小二乘法(siPLS)分别构建油茶籽油中主要脂肪酸(油酸、棕榈酸、亚油酸)的定量回归模型。结果表明:油酸、棕榈酸、亚油酸的红外光谱数据预处理分别以SG、SNV、SD较好;siPLS通过有效波段的选择可去掉更多的噪声,比PLS和iPLS建立的模型精确度高,油酸、棕榈酸、亚油酸的校正集和预测集的相关系数(R)分别为0.9479和0.8539、0.9008和0.9101、0.9793和0.9505。红外光谱结合siPLS更适用于油茶籽油脂肪酸组成的快速测定。 展开更多
关键词 油茶籽油 脂肪酸组成 红外光谱 数据预处理方法 偏最小二乘法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部