-
题名一种非均匀分布数据的非线性标准化方法
被引量:7
- 1
-
-
作者
梁路
黎剑
霍颖翔
滕少华
-
机构
广东工业大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2016年第4期264-269,共6页
-
基金
国家863计划重大项目(2013AA01A212)
国家自然科学基金资助项目(6127206761104156
+1 种基金
61402118)
广东省自然科学基金(9451009001002777)资助
-
文摘
传统的数据标准化处理通常采用的是线性的变换方法,其在处理非均匀分布的数据集时,容易因局部区间内数据点间距过小导致后续的数据挖掘(尤其是基于距离的挖掘)结果不够精确。因此,为非均匀分布数据提出一种基于数据拟合的非线性变换标准化方法,该方法能够在不改变数据整体分布规律的前提下,依据统计找出对应的非线性变换函数,根据函数对各数据点的取值进行非线性放缩,将数据稠密的区间进行扩大的同时将数据稀疏的区间进行压缩,让挖掘的结果更加精确。实验采用BP(Back Propagation)神经网络、支持向量机(Support Vector Machine,SVM)、最近邻分类(K-Nearest Neighbor,KNN)3种经典分类算法结合不同的数据集进行了挖掘,结果表明,分类的错误率有不同程度的下降,同时F1度量有所提高。
-
关键词
非均匀分布
非线性标准化
数据预处理
-
Keywords
non-uniform distribution, nonlinear normalization, data preprocessing
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-