题名 面向非平衡混合数据的改进计数最近邻分类算法
被引量:2
1
作者
廖志芳
陈宇宙
樊晓平
瞿志华
机构
中南大学信息科学与工程学院
美国中佛罗里达大学电子与计算机工程系
出处
《计算机工程与应用》
CSCD
北大核心
2008年第12期139-141,共3页
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.69975003)
湖南省自然科学基金(the Natural Science Foundation of Hunan Province of China under Grant No.06JJ50143)
文摘
非平衡混合数据是指数据集中类别不同的样本在数量上存在着较大的差别;同时样本数据集中的数据是非单一的数据类型,即它包含多种类型,如数值型和文本型数据。在对混合型数据的分类算法中,计数最近邻分类算法(CwkNN)可以有效地对混合型数据进行分类,但该算法对数据的非平衡性处理效果不是太理想。在CwkNN的基础之上结合数据的非平衡性特点提出了基于全局密度和K-密度的分类算法来提高少数类样本的权重,从而提高数据的分类精确度。实验结果表明,全局密度分类算法和CwkNN算法的分类精度相当,K-局部密度分类算法在一定程度上提高了分类的精度。
关键词
计数 最近 邻 分类算法
非平衡数据
全局密度
K-密度
Keywords
Counting-based weighted kNN algorithm(CwkNN)
un-balanced data
overall density
K-local density
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 大肠癌诊断数据分类新算法研究
2
作者
廖志芳
樊晓平
陈宇宙
廖志宁
瞿志华
机构
中南大学信息科学与工程学院
英国莱斯特郡拉夫堡大学科学学院计算机系
美国奥兰多中弗罗里达大学电子工程与计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2008年第20期208-211,共4页
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60776834)
湖南省自然科学基金(the Natural Science Foundation of Hunan Province of China under Grant No.06JJ50143)
文摘
数据分类是数据挖掘技术在医疗数据分析中的一个重要应用,在分析了医疗数据特点后,以大肠早癌诊断数据为例,提出了利用计数最近邻算法对其进行分类的思想;同时在分析该算法性能的基础上,提出了基于检索树和样本密度的计数最近邻新算法对改数据进行分析,以检索树的构建来提高原算法的计算效率,基于全局密度、K-密度的改进算法来提高原算法的精确度。通过实验证明新算法在大肠早癌的数据分析中,其计算复杂度、存储空间和数据分类精确度都得到了较大的提高,同时新算法适应于数值数据、文本数据以及混合数据的分类。
关键词
大肠早癌诊断数据
计数最近邻算法
全局密度
K-密度
Keywords
colorectal carcinoma diagnosis data
KNN by counting
overall density
K-density
分类号
TP311
[自动化与计算机技术—计算机软件与理论]