降维对于数据的可视化和预处理具有重要意义,主成分分析作为最常用的无监督降维算法之一,在实际应用中面临着对噪声和离群点敏感的问题。为了解决这个问题,研究者们提出了多种鲁棒主成分分析算法,通过减小整体样本的重构误差来减小离群...降维对于数据的可视化和预处理具有重要意义,主成分分析作为最常用的无监督降维算法之一,在实际应用中面临着对噪声和离群点敏感的问题。为了解决这个问题,研究者们提出了多种鲁棒主成分分析算法,通过减小整体样本的重构误差来减小离群点的影响。然而,这些算法忽略了数据的固有局部结构,导致数据的本质结构信息丢失,从而影响了对噪声和离群点的准确辨识和移除,进而影响了后续算法的性能。因此,该文提出了基于Soft均值滤波的鲁棒主成分分析(Robust Principal Component Analysis Based on Soft Mean Filtering,RPCA-SMF)算法。RPCA-SMF采用Soft均值滤波的思想,通过两步走的形式,不仅在模型学习前对噪声处理,同时在模型学习后也引入了噪声处理机制。具体而言,RPCA-SMF算法首先引入了均值滤波的相关思想,通过对比样本与其局部近邻这两者和局部均值的偏差对样本进行Soft加权,从而对噪声进行判定。随后,通过第一步获取的关于噪声的“判别知识”处理噪声信息。由于均值滤波能有效保留数据的整体轮廓信息,因此对于被识别为噪声的样本,RPCA-SMF算法强调保留其低频整体轮廓信息,而非高频的噪声信息。这样能够有效地保留数据中的有用信息,提高对数据整体结构特征的保留能力,使得算法具有较强的鲁棒性和较好的泛化性。展开更多
为了处理张量数据,传统的学习算法常常把张量展成向量,但会造成破坏原始数据固有的高阶结构和内在相关性,导致信息丢失,或产生高维向量,使得后期学习过程中容易出现过拟合、维度灾难和小样本问题.近年提出了许多基于张量模式的分类算法...为了处理张量数据,传统的学习算法常常把张量展成向量,但会造成破坏原始数据固有的高阶结构和内在相关性,导致信息丢失,或产生高维向量,使得后期学习过程中容易出现过拟合、维度灾难和小样本问题.近年提出了许多基于张量模式的分类算法,而支持高阶张量机算法是张量分类算法中最有效的方法之一.考虑到张量的高维性和高冗余性,本文提出基于多线性主成分分析的支持高阶张量机分类算法(Multilinear Principle Component Analysis Based Support High-Order Tensor Machine,MPCA+SHTM).该算法首先利用多线性主成分分析对张量进行降维,然后利用支持高阶张量机对降维后的张量进行学习.在12个张量数据集上的实验表明:MPCA+SHTM在保持测试精度的情况下有效地降低了SHTM的计算时间.展开更多
文摘降维对于数据的可视化和预处理具有重要意义,主成分分析作为最常用的无监督降维算法之一,在实际应用中面临着对噪声和离群点敏感的问题。为了解决这个问题,研究者们提出了多种鲁棒主成分分析算法,通过减小整体样本的重构误差来减小离群点的影响。然而,这些算法忽略了数据的固有局部结构,导致数据的本质结构信息丢失,从而影响了对噪声和离群点的准确辨识和移除,进而影响了后续算法的性能。因此,该文提出了基于Soft均值滤波的鲁棒主成分分析(Robust Principal Component Analysis Based on Soft Mean Filtering,RPCA-SMF)算法。RPCA-SMF采用Soft均值滤波的思想,通过两步走的形式,不仅在模型学习前对噪声处理,同时在模型学习后也引入了噪声处理机制。具体而言,RPCA-SMF算法首先引入了均值滤波的相关思想,通过对比样本与其局部近邻这两者和局部均值的偏差对样本进行Soft加权,从而对噪声进行判定。随后,通过第一步获取的关于噪声的“判别知识”处理噪声信息。由于均值滤波能有效保留数据的整体轮廓信息,因此对于被识别为噪声的样本,RPCA-SMF算法强调保留其低频整体轮廓信息,而非高频的噪声信息。这样能够有效地保留数据中的有用信息,提高对数据整体结构特征的保留能力,使得算法具有较强的鲁棒性和较好的泛化性。
文摘为了处理张量数据,传统的学习算法常常把张量展成向量,但会造成破坏原始数据固有的高阶结构和内在相关性,导致信息丢失,或产生高维向量,使得后期学习过程中容易出现过拟合、维度灾难和小样本问题.近年提出了许多基于张量模式的分类算法,而支持高阶张量机算法是张量分类算法中最有效的方法之一.考虑到张量的高维性和高冗余性,本文提出基于多线性主成分分析的支持高阶张量机分类算法(Multilinear Principle Component Analysis Based Support High-Order Tensor Machine,MPCA+SHTM).该算法首先利用多线性主成分分析对张量进行降维,然后利用支持高阶张量机对降维后的张量进行学习.在12个张量数据集上的实验表明:MPCA+SHTM在保持测试精度的情况下有效地降低了SHTM的计算时间.