期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于决策树生成及剪枝的数据集优化及其应用 被引量:14
1
作者 李国和 王峰 +3 位作者 郑阳 吴卫江 洪云峰 周晓明 《计算机工程与设计》 北大核心 2018年第1期205-211,共7页
为提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修正。在进行数据集和决策树形式化描述的基础上,将基尼指数增益率作为确定连续条件属性最优二分原则,采用递归算法生成叶节点中对象为... 为提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修正。在进行数据集和决策树形式化描述的基础上,将基尼指数增益率作为确定连续条件属性最优二分原则,采用递归算法生成叶节点中对象为同一类别的二叉决策树。利用信息熵评价决策树剪除叶节点中对象的类别分布效果,实现数据集类别异常的类别修正。决策树的生成和剪枝本质上是完成基于基尼指数和信息熵的连续条件属性数据空间分割和合并类别修正。实验和实际应用验证了决策树生成和剪枝是数据集类别优化的有效方法。 展开更多
关键词 信息熵 基尼指数 决策树 剪枝 数据优化
在线阅读 下载PDF
面向机器学习的训练数据集均衡化方法 被引量:13
2
作者 李国和 张腾 +2 位作者 吴卫江 洪云峰 周晓明 《计算机工程与设计》 北大核心 2019年第3期812-818,共7页
为提高机器学习算法对于不均衡数据的建模效果,提出一种均衡化预处理方法。采用iForest形成每个样本在样本空间中的分布特征评估值,基于负类(多数类)样本的分布特征评估值定义概率分布;根据样本的概率分布,通过轮盘转算法选取负类样本;... 为提高机器学习算法对于不均衡数据的建模效果,提出一种均衡化预处理方法。采用iForest形成每个样本在样本空间中的分布特征评估值,基于负类(多数类)样本的分布特征评估值定义概率分布;根据样本的概率分布,通过轮盘转算法选取负类样本;通过K-means方法形成若干负类样本聚类中心,以聚类中心为最终负类选取样本,实现正负类样本的均衡化。整个过程构成均衡化方法iForest-RM。iForest-RM与其它采样方法在Adaboost模型上的实验对比结果表明,iForest-RM具有更好的均衡化能力,更好获取样本空间分布特性,可有效应用于地震相识别。 展开更多
关键词 数据预处理 不均衡数据 隔离森林 均值聚类 轮盘转算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部