期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
决策树C4.5连续属性分割阈值算法改进及其应用 被引量:41
1
作者 姚亚夫 邢留涛 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第12期3772-3776,共5页
结合Fayyad边界点原理提出一种新的连续值属性最佳分割阈值的选择算法。根据Fayyad连续值属性的最佳分割点总在边界点处的原理,只在连续属性分界点处的少数几个分割点中选择最佳分割阈值。构造并训练了改进C4.5分类器,将其应用于视频序... 结合Fayyad边界点原理提出一种新的连续值属性最佳分割阈值的选择算法。根据Fayyad连续值属性的最佳分割点总在边界点处的原理,只在连续属性分界点处的少数几个分割点中选择最佳分割阈值。构造并训练了改进C4.5分类器,将其应用于视频序列中的人车目标识别。实验结果表明:改进C4.5算法的计算量减少近20%,大大提高了决策树的生成效率,分类准确率也略有提高。 展开更多
关键词 决策树C4.5算法 连续属性 分割阈值 信息增益率
在线阅读 下载PDF
粗糙集中连续属性离散化的一种新方法 被引量:21
2
作者 何亚群 胡寿松 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2003年第2期212-215,共4页
提出一种新的间接离散化方法——超曲面法。首先给出了超曲面的定义 ,证明了超曲面为一个高阶的多项式 ,且给出了该多项式的总项数 ;同时证明了超曲面数与最大决策规则数之间的关系。然后提出了应用支持向量机来求取最优超曲面的方法。... 提出一种新的间接离散化方法——超曲面法。首先给出了超曲面的定义 ,证明了超曲面为一个高阶的多项式 ,且给出了该多项式的总项数 ;同时证明了超曲面数与最大决策规则数之间的关系。然后提出了应用支持向量机来求取最优超曲面的方法。最后以空军低消耗器材的储存策略为例 ,说明了超曲面的求解过程。实例仿真结果表明 ,用支持向量机来求解超曲面 ,不仅方法简单 ,而且较容易寻得最优解。结果还表明 ,文中提出的超曲面间接离散方法能较好地区分决策表中的决策类别 ,从而获得更为简捷的决策规则。 展开更多
关键词 粗糙集 连续属性 离散化 超曲面 支持向量机
在线阅读 下载PDF
基于红黑树的连续属性数据流快速决策树分类算法 被引量:7
3
作者 陈煜 李玲娟 《南京邮电大学学报(自然科学版)》 北大核心 2017年第2期86-90,共5页
以提高连续属性数据流的分类挖掘效率为目标,设计并实现了一种基于红黑树的连续属性数据流快速决策树分类算法VFDT_RBT。该算法利用红黑树来更有效地处理样本的插入,使得有序插入时的时间复杂度仍为O(nlogn);利用堆栈和红黑树中序遍历... 以提高连续属性数据流的分类挖掘效率为目标,设计并实现了一种基于红黑树的连续属性数据流快速决策树分类算法VFDT_RBT。该算法利用红黑树来更有效地处理样本的插入,使得有序插入时的时间复杂度仍为O(nlogn);利用堆栈和红黑树中序遍历有序的特点来降低最佳划分阈值选取过程的时间复杂度;利用hoeffding不等式确定连续属性划分阈值所需的样本数量;在允许连续属性多次出现的原则下选择划分属性建立决策树,提高了算法的分类精度。在多个数据集上的分类实验结果表明:VFDT_RBT比已有的VFDTc具有更低的时间复杂度和更高的分类精度,更适合处理多属性样本。 展开更多
关键词 数据流 红黑树 连续属性 VFDTc 决策树
在线阅读 下载PDF
扩展的多类别信息熵的粗糙集连续属性离散化新方法 被引量:2
4
作者 杨新锋 杨东芳 +1 位作者 刘克成 辛玉林 《红外与激光工程》 EI CSCD 北大核心 2014年第11期3802-3806,共5页
提出了一种标准粗糙集约简时连续属性离散化的新方法。采用标准粗糙集进行属性约简时,要求属性为离散的,而大多数情况下属性是连续的,因此需要进行离散化处理。首先介绍了原有的信息熵算法并指出其局限性;其次,对多类别信息熵进行扩充,... 提出了一种标准粗糙集约简时连续属性离散化的新方法。采用标准粗糙集进行属性约简时,要求属性为离散的,而大多数情况下属性是连续的,因此需要进行离散化处理。首先介绍了原有的信息熵算法并指出其局限性;其次,对多类别信息熵进行扩充,将距离因素引入到该信息熵的计算中;最后给出了扩展信息熵计算的两个基本准则,利用证据理论完成信度的上聚焦。仿真显示了该方法的有效性。 展开更多
关键词 粗糙集理论 离散化 属性约简 连续属性 证据理论
在线阅读 下载PDF
基于信息熵的连续属性自动聚类算法 被引量:2
5
作者 许志兴 伍华林 丁运亮 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2001年第3期233-236,共4页
基于信息熵的有关理论 ,提出了一种新的连续属性的自动聚类算法。首先介绍了 Shannon熵的概念及其两个重要的定理 ,基于信息的不确定测度 ,提出了一种 Shannon熵的准则函数 φ,并且指出了该准则函数必须满足的 6条原则。其次 ,基于该准... 基于信息熵的有关理论 ,提出了一种新的连续属性的自动聚类算法。首先介绍了 Shannon熵的概念及其两个重要的定理 ,基于信息的不确定测度 ,提出了一种 Shannon熵的准则函数 φ,并且指出了该准则函数必须满足的 6条原则。其次 ,基于该准则函数 ,引出了一种针对单个连续属性自动聚类的 FUSINTER算法。由于实际信息系统中有多个连续属性 ,这就需要对多个连续属性分别使用 FUSINTER算法进行离散 ,并且要求最终保证整个信息系统离散后是相容的和一致的 ,而且各个属性拥有较少的分割区间。最后 ,本文以干线飞机外形参数的变化趋势与其更新换代的关系来说明文中提出的连续属性离散化过程 ,并展示了该聚类算法的有效性。本文提出的方法可以用于机器学习或数据挖掘的数据前处理。 展开更多
关键词 连续属性 FUSINTER算法 自动聚类算法 信息熵 数据挖掘 数据库
在线阅读 下载PDF
近似最优的粗糙集连续属性离散化断点选择方法 被引量:1
6
作者 田树新 吴晓平 +1 位作者 王红霞 张丽 《武汉理工大学学报(交通科学与工程版)》 2011年第2期297-300,共4页
针对粗糙集中连续属性的离散化问题,提出了一种基于断点选择的离散化方法.首先对条件属性进行重要性排序,选用有效的启发式规则作为获取近似最优断点的依据;然后以信息熵和决策表的相容度作为约束条件,生成离散化数据.最后采用UCI数据... 针对粗糙集中连续属性的离散化问题,提出了一种基于断点选择的离散化方法.首先对条件属性进行重要性排序,选用有效的启发式规则作为获取近似最优断点的依据;然后以信息熵和决策表的相容度作为约束条件,生成离散化数据.最后采用UCI数据对此算法的性能进行了检验,并与其他算法做了对比实验.实验结果表明此算法是有效的,而且当属性值的出现频率和样本数较多时仍有很高的计算效率. 展开更多
关键词 粗糙集 信息熵 启发式规则 连续属性 离散化
在线阅读 下载PDF
基于分布率的连续属性二次离散化算法 被引量:1
7
作者 刘丰年 黄景涛 《微电子学与计算机》 CSCD 北大核心 2009年第1期177-179,共3页
为解决经典粗糙集理论在处理决策表离散化时规则数多、准确率低的问题,文中提出基于贪心算法和属性值分布率相结合的二次离散化方法.与目前很多离散方法不考虑决策相容性相比,该方法能够最大限度地保留系统的有用信息.通过实验验证了该... 为解决经典粗糙集理论在处理决策表离散化时规则数多、准确率低的问题,文中提出基于贪心算法和属性值分布率相结合的二次离散化方法.与目前很多离散方法不考虑决策相容性相比,该方法能够最大限度地保留系统的有用信息.通过实验验证了该方法的有效性. 展开更多
关键词 粗糙集 连续属性 二次离散化 分布率
在线阅读 下载PDF
基于信息论的连续属性离散化 被引量:2
8
作者 徐如燕 鲁汉榕 郭齐胜 《空军雷达学院学报》 2001年第2期20-23,共4页
使用信息论的方法进行连续属性的离散化。引入Hellinger偏差HD (Hellinger Di-vergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均... 使用信息论的方法进行连续属性的离散化。引入Hellinger偏差HD (Hellinger Di-vergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均。分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。 展开更多
关键词 连续属性离散化 算法 归并 度量 信息论 信息熵 切分 离散化方法 平均 区间
在线阅读 下载PDF
连续属性空间上的规则学习算法
9
作者 邱深山 权光日 +1 位作者 孔令春 郭茂祖 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2000年第3期42-47,共6页
研究了连续属性空间离散化问题 ,将信息熵函数与无穷范数的概念应用到连续属性离散化问题 ,提出了基于信息熵的属性空间极小化算法 .在此基础上 ,提出了连续属性空间上的规则学习算法 .并给出了数值实验结果 .
关键词 规则学习算法 连续属性空间 信息熵 人工智能
在线阅读 下载PDF
一种连续属性离散化的新方法
10
作者 张政超 周宪英 关欣 《火力与指挥控制》 CSCD 北大核心 2010年第7期20-22,32,共4页
传统的粗糙集理论只能处理离散属性,所以在对决策表进行处理之前,必须对决策表中的连续属性进行离散化。提出一种新的相容离散化算法,从决策属性值出发,对决策属性值相同的实例在空间上进行合并,并用例子说明该算法的离散化过程。最后... 传统的粗糙集理论只能处理离散属性,所以在对决策表进行处理之前,必须对决策表中的连续属性进行离散化。提出一种新的相容离散化算法,从决策属性值出发,对决策属性值相同的实例在空间上进行合并,并用例子说明该算法的离散化过程。最后分析了该算法的复杂度。该方法能有效地离散连续属性决策系统,结果表明,采用本算法进行离散化能得到合理的断点结果。 展开更多
关键词 粗糙集 连续属性 离散化 决策属性
在线阅读 下载PDF
基于PCA和模糊C-均值聚类的目标连续属性量化算法
11
作者 马守明 程显毅 《现代电子技术》 2007年第2期59-61,共3页
机器学习中很多方法要求目标属性是离散的,而实际中很多属性是连续的。目前的连续属性量化算法存在的问题是当新的对象加入决策表时,原有的分割点可能不是最优的。基于PCA(主成分分析)、模糊C-均值聚类和不相容度概念,提出一种目标连续... 机器学习中很多方法要求目标属性是离散的,而实际中很多属性是连续的。目前的连续属性量化算法存在的问题是当新的对象加入决策表时,原有的分割点可能不是最优的。基于PCA(主成分分析)、模糊C-均值聚类和不相容度概念,提出一种目标连续属性量化算法,该算法具有在量化过程中区别对待不同的条件属性,以决策表的不相容度为连续属性量化终止的标准,在保持决策表信息损失最少的情况下,尽量减少分类的区间数等特点。 展开更多
关键词 PCA 模糊C-均值 连续属性 不相容度
在线阅读 下载PDF
基于决策表相容度和属性重要度的连续属性离散化算法 被引量:1
12
作者 王成宇 林名驰 《舰船电子工程》 2022年第4期43-48,共6页
基于粗糙集理论的模型筛选与组合预测方法对于舰船维修费用的预测具有较强的应用价值,然而在连续属性离散化方面却存在部分问题。针对由多种预测模型预测值构成的数据表的离散化及模型筛选问题,分别分析了有监督离散化算法和无监督离散... 基于粗糙集理论的模型筛选与组合预测方法对于舰船维修费用的预测具有较强的应用价值,然而在连续属性离散化方面却存在部分问题。针对由多种预测模型预测值构成的数据表的离散化及模型筛选问题,分别分析了有监督离散化算法和无监督离散化算法的局限性与适用性,并针对无监督离散化算法可能改变原有不可分辨关系、已有的改进算法可能存在的断点冗余以及分别考虑决策表与条件属性的不相容度导致的计算复杂的问题,引入决策表相容度作为反馈信息,从整体上考虑决策表的相容度,初次离散化选取数值合理的断点数,并结合各条件属性的属性重要度对各条件属性进行排序,通过逐次对决策表相容度进行判别,依排序情况逐个对条件属性的断点数进行调整,以达到离散化效果并保证决策表的相容度不变。通过例证分析,验证了该算法的有效性。 展开更多
关键词 离散化 决策表相容度 属性重要度 连续属性
在线阅读 下载PDF
决策树算法中的连续属性处理方法 被引量:1
13
作者 许俊 《河北理工学院学报》 2007年第2期71-74,80,共5页
决策树是分类数据挖掘的重要方法。C4.5算法延用了经典ID3算法的基本策略,增加了处理连续属性的方法。在C4.5算法的基础上,讨论了新的基于属性变换的连续属性处理方法。该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属... 决策树是分类数据挖掘的重要方法。C4.5算法延用了经典ID3算法的基本策略,增加了处理连续属性的方法。在C4.5算法的基础上,讨论了新的基于属性变换的连续属性处理方法。该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度。 展开更多
关键词 决策树 CA.5算法 连续属性 概率属性
在线阅读 下载PDF
连续性属性分析理论探讨及应用 被引量:2
14
作者 李岩 熊巧荣 +2 位作者 王安生 任军民 徐怀保 《新疆石油地质》 CAS CSCD 2002年第4期309-310,共2页
随着准噶尔盆地油气勘探工作的进一步深化,地震综合研究的目标也逐步深入到复杂构造的精细解释和储集层研究的定量化上。近几年随着地球物理新技术的进一步发展,地球物理学家们又开发出许多利用地震资料进行综合解释研究的辅助性软件,... 随着准噶尔盆地油气勘探工作的进一步深化,地震综合研究的目标也逐步深入到复杂构造的精细解释和储集层研究的定量化上。近几年随着地球物理新技术的进一步发展,地球物理学家们又开发出许多利用地震资料进行综合解释研究的辅助性软件,不仅减少了综合解释中的经验成分,而且提高了解释的精度和效率,提高了地震资料的利用率,同时也展示了物探技术在今后勘探中的应用潜力。通过实际应用,对连续性属性分析技术的原理及关键参数进行了试验和研究,在多个区块取得了许多应用经验和解释成果,在科研生产中起到了积极的作用。 展开更多
关键词 连续属性分析 三维地震解释 准噶尔盆地 油气勘探
在线阅读 下载PDF
基于GMRF的连续型储集层属性分布随机模拟 被引量:3
15
作者 刘振峰 郝天珧 王峰 《石油勘探与开发》 SCIE EI CAS CSCD 北大核心 2005年第6期75-77,81,共4页
连续型储集层属性分布预测是油气储集层研究的重要内容。定量化的方法有各种插值技术和基于地质统计学的一些随机模拟技术,不同方法各有其优缺点。对基于GMRF(Gaussian Markov Random Fields)模型的随机模拟方法的原理和算法进行了较为... 连续型储集层属性分布预测是油气储集层研究的重要内容。定量化的方法有各种插值技术和基于地质统计学的一些随机模拟技术,不同方法各有其优缺点。对基于GMRF(Gaussian Markov Random Fields)模型的随机模拟方法的原理和算法进行了较为详细的介绍,实际模型的运算过程及结果表明,该方法较为简捷,同时连续型属性作为空间随机变量的两个特征———结构性和随机性也得到了很好的反映。 展开更多
关键词 GMRF 连续型储集层属性 随机模拟 MCMC
在线阅读 下载PDF
样本信息处理中一种属性约简方法的研究 被引量:11
16
作者 夏克文 沈钧毅 李昌彪 《西安交通大学学报》 EI CAS CSCD 北大核心 2005年第6期558-561,602,共5页
为了剔除样本信息中存在的冗余成分和不相容性,同时提取关键信息等,根据样本信息的特点和信息具有粒度的思想,基于粗糙集的2个近似精度科学地定义了条件属性重要性,进而提出一种对样本信息进行属性约简的有效、简便方法.该方法主要包括... 为了剔除样本信息中存在的冗余成分和不相容性,同时提取关键信息等,根据样本信息的特点和信息具有粒度的思想,基于粗糙集的2个近似精度科学地定义了条件属性重要性,进而提出一种对样本信息进行属性约简的有效、简便方法.该方法主要包括信息核的求取、可省条件属性的重要性计算和相对属性约简集的确定.其中,为连续属性的离散化处理提供了一种基于模糊相似比原理的快速离散化算法,它能起到剔除模糊噪声的作用.典型实例计算和在油水层识别系统中的实际应用表明,这种属性约简方法的识别准确率可达90%以上,应用效果显著. 展开更多
关键词 属性约简 样本信息 近似精度 连续属性离散化 模糊相似比
在线阅读 下载PDF
具有全局聚类的多属性离散化算法 被引量:3
17
作者 刘弹 杨景明 罗爱玲 《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第9期1-5,共5页
为了减少连续属性离散化后有用信息的丢失和信息系统总的断点数量,提出了一种具有全局聚类效果的多属性离散化算法.算法根据各属性预插入断点对信息系统近似分类质量的影响,来确定要插入断点的属性,从全局属性范围选择最佳断点.根据Amev... 为了减少连续属性离散化后有用信息的丢失和信息系统总的断点数量,提出了一种具有全局聚类效果的多属性离散化算法.算法根据各属性预插入断点对信息系统近似分类质量的影响,来确定要插入断点的属性,从全局属性范围选择最佳断点.根据Ameva统计量来判断属性中最佳断点的位置,并以保证决策表的近似分类质量作为算法的终止条件.实验采用多组机器学习数据对算法的性能进行了检验,并与几种经典算法做了对比.实验结果表明,用新的离散化算法获得的结果所建的C45决策树分类模型,具有较好的分类精度和较少的节点数量. 展开更多
关键词 统计量 连续属性 离散化
在线阅读 下载PDF
基于类-属性关系依赖度的数据离散化方法 被引量:2
18
作者 张小梅 《兰州交通大学学报》 CAS 2012年第3期125-129,共5页
提出了一种基于类-属性关系依赖度的数据离散化方法,其特点是:借助统计学的λ相关系数,有效地捕获类-属性间的相互依赖,以此来选取最佳断点.并利用粗糙集属性依赖度分析方法,对实验数据进行有效分析,挖掘出对决策分析影响大的属性,去掉... 提出了一种基于类-属性关系依赖度的数据离散化方法,其特点是:借助统计学的λ相关系数,有效地捕获类-属性间的相互依赖,以此来选取最佳断点.并利用粗糙集属性依赖度分析方法,对实验数据进行有效分析,挖掘出对决策分析影响大的属性,去掉对决策分析影响小的冗余属性,以此构造数据挖掘模型.实例测试表明:该方法显著提高了决策树的分类学习精度,尤其在乳腺癌的症诊断上效果显著. 展开更多
关键词 连续属性离散化 粗糙集 关系依赖 决策树
在线阅读 下载PDF
一种区间属性值离散化的新方法 被引量:5
19
作者 关欣 衣晓 +1 位作者 何友 周一宇 《宇航学报》 EI CAS CSCD 北大核心 2009年第3期1164-1167,1206,共5页
粗糙集理论作为一种新的处理含糊和不确定性问题的数学工具,已成为国际学术界的一个前沿的研究领域。传统的粗糙集理论只能对数据库中的离散属性进行处理,因此,连续属性值的离散化问题不容忽视。已有的离散化方法主要是针对固定点上的... 粗糙集理论作为一种新的处理含糊和不确定性问题的数学工具,已成为国际学术界的一个前沿的研究领域。传统的粗糙集理论只能对数据库中的离散属性进行处理,因此,连续属性值的离散化问题不容忽视。已有的离散化方法主要是针对固定点上的连续属性值的,实际应用中大量存在着连续区间属性值的情况。文中针对这一问题,提出了一种连续区间属性值离散化的新方法,并利用辐射源信号进行了仿真试验。结果表明,该方法能有效离散区间属性,从而拓展了粗糙集理论的应用范围。 展开更多
关键词 粗糙集 离散化 连续区间值属性
在线阅读 下载PDF
一个机器学习定量属性的定性方法 TCIN
20
作者 毕建东 曲复宛 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 1997年第5期73-76,共4页
一个机器学习定量属性的定性方法TCIN毕建东(计算机科学与工程系)曲复宛(哈尔滨市电业局)摘要提出了一个连续属性离散化方法TCIN,它首先使用自然划分法对区间进行划分,然后使用KN-近邻估计,利用基于最小错误率的Ba... 一个机器学习定量属性的定性方法TCIN毕建东(计算机科学与工程系)曲复宛(哈尔滨市电业局)摘要提出了一个连续属性离散化方法TCIN,它首先使用自然划分法对区间进行划分,然后使用KN-近邻估计,利用基于最小错误率的Bayes决策寻找划分点进一步离散化连... 展开更多
关键词 示例学习 连续属性 离散化 TCIN 机器学习
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部