期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向非平衡混合数据的改进计数最近邻分类算法 被引量:2
1
作者 廖志芳 陈宇宙 +1 位作者 樊晓平 瞿志华 《计算机工程与应用》 CSCD 北大核心 2008年第12期139-141,共3页
非平衡混合数据是指数据集中类别不同的样本在数量上存在着较大的差别;同时样本数据集中的数据是非单一的数据类型,即它包含多种类型,如数值型和文本型数据。在对混合型数据的分类算法中,计数最近邻分类算法(CwkNN)可以有效地对混合型... 非平衡混合数据是指数据集中类别不同的样本在数量上存在着较大的差别;同时样本数据集中的数据是非单一的数据类型,即它包含多种类型,如数值型和文本型数据。在对混合型数据的分类算法中,计数最近邻分类算法(CwkNN)可以有效地对混合型数据进行分类,但该算法对数据的非平衡性处理效果不是太理想。在CwkNN的基础之上结合数据的非平衡性特点提出了基于全局密度和K-密度的分类算法来提高少数类样本的权重,从而提高数据的分类精确度。实验结果表明,全局密度分类算法和CwkNN算法的分类精度相当,K-局部密度分类算法在一定程度上提高了分类的精度。 展开更多
关键词 计数最近分类算法 非平衡数据 全局密度 K-密度
在线阅读 下载PDF
大肠癌诊断数据分类新算法研究
2
作者 廖志芳 樊晓平 +2 位作者 陈宇宙 廖志宁 瞿志华 《计算机工程与应用》 CSCD 北大核心 2008年第20期208-211,共4页
数据分类是数据挖掘技术在医疗数据分析中的一个重要应用,在分析了医疗数据特点后,以大肠早癌诊断数据为例,提出了利用计数最近邻算法对其进行分类的思想;同时在分析该算法性能的基础上,提出了基于检索树和样本密度的计数最近邻新算法... 数据分类是数据挖掘技术在医疗数据分析中的一个重要应用,在分析了医疗数据特点后,以大肠早癌诊断数据为例,提出了利用计数最近邻算法对其进行分类的思想;同时在分析该算法性能的基础上,提出了基于检索树和样本密度的计数最近邻新算法对改数据进行分析,以检索树的构建来提高原算法的计算效率,基于全局密度、K-密度的改进算法来提高原算法的精确度。通过实验证明新算法在大肠早癌的数据分析中,其计算复杂度、存储空间和数据分类精确度都得到了较大的提高,同时新算法适应于数值数据、文本数据以及混合数据的分类。 展开更多
关键词 大肠早癌诊断数据 计数最近邻算法 全局密度 K-密度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部