-
题名基于数据集特征的KNN最优K值预测方法
被引量:14
- 1
-
-
作者
李洪奇
杨中国
朱丽萍
刘蔷
-
机构
中国石油大学计算机系
中国石油大学石油数据挖掘北京市重点实验室
-
出处
《计算机应用与软件》
CSCD
2016年第6期54-58,83,共6页
-
基金
中国石油大学(北京)基金项目(KYJJ2012-05-25)
-
文摘
KNN算法中的参数K的选择一般采取多次交叉验证方法求取,数据规模较大时并不适用。同时,影响参数选择最根本的因素是数据集本身。因此,提出利用数据集本身的特征预测最优K值的方法。首先提取历史数据集的简单特征、统计特征、信息熵特征、简单算法精度特征、复杂度特征等构建特征向量,然后利用线性回归、神经网络等方法建立特征向量与最优K值之间的预测模型,并用该模型预测新数据集的最优K值。在UCI数据集上的实验表明,该方法能迅速预测最优K值,并确保一定的精度。
-
关键词
KNN分类算法
数据集特征
信息熵
最优K
-
Keywords
KNN classification algorithm
Dataset feature
Information entropy
Optimal K
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于数据集相似性的分类算法推荐
被引量:6
- 2
-
-
作者
李洪奇
徐青松
朱丽萍
戚雪晨
-
机构
中国石油大学石油数据挖掘北京市重点实验室
中国石油大学计算机系
-
出处
《计算机应用与软件》
CSCD
2016年第8期62-66,共5页
-
基金
十二五国家重大专项(2011ZX05020009)
北京市重点实验室阶梯计划项目(Z121109009212008)
-
文摘
近年来,随着大数据分析需求的急剧增长,分类算法的运用也越来越广泛,如何为用户选择适用的分类算法成为数据挖掘技术在应用上亟待解决的难题。相关研究表明,同一算法在相似数据集上具有相近的分类效果。根据这一理论,构建基于数据集相似性的分类算法选择模型。首先采用数据集离散化方法来对数据集进行特征提取,构建样本库,然后结合邻近相似的原则为数据集推荐合适的分类算法。通过UCI数据集上的算法实验,结果表明大多数情况下推荐得到的分类算法具有良好的性能。
-
关键词
数据挖掘
分类算法
数据集特征
性能评价
算法推荐
-
Keywords
Data mining
Classification algorithm
Dataset features
Performance evaluation
Algorithm recommendation
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-