-
题名基于决策树生成及剪枝的数据集优化及其应用
被引量:14
- 1
-
-
作者
李国和
王峰
郑阳
吴卫江
洪云峰
周晓明
-
机构
中国石油大学(北京)地球物理与信息工程学院
中国石油大学(北京)油气数据挖掘北京市重点实验室
北京兆信信息技术股份有限公司石大兆信数字身份管理与物联网技术研究院
-
出处
《计算机工程与设计》
北大核心
2018年第1期205-211,共7页
-
基金
国家863高技术研究发展计划基金项目(2009AA062802)
国家自然科学基金项目(60473125)
+2 种基金
中国石油(CNPC)石油科技中青年创新基金项目(05E7013)
国家重大专项子课题基金项目(G5800-08-ZS-WX)
中国石油大学(北京)克拉玛依校区科研启动基金项目(RCYJ2016B-03-001)
-
文摘
为提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修正。在进行数据集和决策树形式化描述的基础上,将基尼指数增益率作为确定连续条件属性最优二分原则,采用递归算法生成叶节点中对象为同一类别的二叉决策树。利用信息熵评价决策树剪除叶节点中对象的类别分布效果,实现数据集类别异常的类别修正。决策树的生成和剪枝本质上是完成基于基尼指数和信息熵的连续条件属性数据空间分割和合并类别修正。实验和实际应用验证了决策树生成和剪枝是数据集类别优化的有效方法。
-
关键词
信息熵
基尼指数
决策树
剪枝
数据优化
-
Keywords
information entropy
Gini index
decision tree
tree pruning
data optimization
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向机器学习的训练数据集均衡化方法
被引量:13
- 2
-
-
作者
李国和
张腾
吴卫江
洪云峰
周晓明
-
机构
中国石油大学(北京)石油数据挖掘北京市重点实验室
中国石油大学(北京)地球物理与信息工程学院
北京兆信信息技术股份有限公司石大兆信数字身份管理与物联网技术研究院
-
出处
《计算机工程与设计》
北大核心
2019年第3期812-818,共7页
-
基金
国家高新技术研究发展计划基金项目(2009AA062802)
中国石油(CNPC)石油科技中青年创新基金项目(05E7013)
+1 种基金
国家油气重大专项子课题基金项目(G5800-08-ZS-WX)
中国石油大学(北京)克拉玛依校区科研启动基金项目(RCYJ2016B-03-001)
-
文摘
为提高机器学习算法对于不均衡数据的建模效果,提出一种均衡化预处理方法。采用iForest形成每个样本在样本空间中的分布特征评估值,基于负类(多数类)样本的分布特征评估值定义概率分布;根据样本的概率分布,通过轮盘转算法选取负类样本;通过K-means方法形成若干负类样本聚类中心,以聚类中心为最终负类选取样本,实现正负类样本的均衡化。整个过程构成均衡化方法iForest-RM。iForest-RM与其它采样方法在Adaboost模型上的实验对比结果表明,iForest-RM具有更好的均衡化能力,更好获取样本空间分布特性,可有效应用于地震相识别。
-
关键词
数据预处理
不均衡数据
隔离森林
均值聚类
轮盘转算法
-
Keywords
data preprocessing
unbalanced dataset
isolation forest
K-means
turn roulette algorithm
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-