为避免KMOR(k-means with outlier removal)算法因样本中类内离散度不同而产生离群点误判的问题,提出为每类样本分别选取离群点判别标准的改进算法。在算法初始化时,利用样本的密集性排除离群点干扰;在迭代过程中,根据每类样本的类内离...为避免KMOR(k-means with outlier removal)算法因样本中类内离散度不同而产生离群点误判的问题,提出为每类样本分别选取离群点判别标准的改进算法。在算法初始化时,利用样本的密集性排除离群点干扰;在迭代过程中,根据每类样本的类内离散度分别选取判别标准,与样本到其所属聚类中心的距离比较判别离群点。两者结合提高聚类结果正确率,避免因样本中类内离散度不同产生的误判。实验结果表明,改进算法相比原算法在正确率和离群点检测上有所提高。展开更多
支持向量机(Support vector machine,SVM)作为一种经典的分类方法,已经广泛应用于各种领域中。然而,标准支持向量机在分类决策中面临以下问题:(1)未考虑分类数据的分布特征;(2)忽略了样本类别间的相对关系;(3)无法解决大规模分类问题。...支持向量机(Support vector machine,SVM)作为一种经典的分类方法,已经广泛应用于各种领域中。然而,标准支持向量机在分类决策中面临以下问题:(1)未考虑分类数据的分布特征;(2)忽略了样本类别间的相对关系;(3)无法解决大规模分类问题。鉴于此,提出融合数据分布特征的保序学习机(Rank preservation learning machine based on data distribution fusion,RPLM-DDF)。该方法通过引入类内离散度表征数据的分布特征;通过各类样本数据中心位置相对不变保证全局样本顺序不变;通过建立所提方法和核心向量机对偶形式的等价性解决了大规模分类问题。在人工数据集、中小规模数据集和大规模数据集上的比较实验验证所提方法的有效性。展开更多
文摘为避免KMOR(k-means with outlier removal)算法因样本中类内离散度不同而产生离群点误判的问题,提出为每类样本分别选取离群点判别标准的改进算法。在算法初始化时,利用样本的密集性排除离群点干扰;在迭代过程中,根据每类样本的类内离散度分别选取判别标准,与样本到其所属聚类中心的距离比较判别离群点。两者结合提高聚类结果正确率,避免因样本中类内离散度不同产生的误判。实验结果表明,改进算法相比原算法在正确率和离群点检测上有所提高。
文摘支持向量机(Support vector machine,SVM)作为一种经典的分类方法,已经广泛应用于各种领域中。然而,标准支持向量机在分类决策中面临以下问题:(1)未考虑分类数据的分布特征;(2)忽略了样本类别间的相对关系;(3)无法解决大规模分类问题。鉴于此,提出融合数据分布特征的保序学习机(Rank preservation learning machine based on data distribution fusion,RPLM-DDF)。该方法通过引入类内离散度表征数据的分布特征;通过各类样本数据中心位置相对不变保证全局样本顺序不变;通过建立所提方法和核心向量机对偶形式的等价性解决了大规模分类问题。在人工数据集、中小规模数据集和大规模数据集上的比较实验验证所提方法的有效性。