降维对于数据的可视化和预处理具有重要意义,主成分分析作为最常用的无监督降维算法之一,在实际应用中面临着对噪声和离群点敏感的问题。为了解决这个问题,研究者们提出了多种鲁棒主成分分析算法,通过减小整体样本的重构误差来减小离群...降维对于数据的可视化和预处理具有重要意义,主成分分析作为最常用的无监督降维算法之一,在实际应用中面临着对噪声和离群点敏感的问题。为了解决这个问题,研究者们提出了多种鲁棒主成分分析算法,通过减小整体样本的重构误差来减小离群点的影响。然而,这些算法忽略了数据的固有局部结构,导致数据的本质结构信息丢失,从而影响了对噪声和离群点的准确辨识和移除,进而影响了后续算法的性能。因此,该文提出了基于Soft均值滤波的鲁棒主成分分析(Robust Principal Component Analysis Based on Soft Mean Filtering,RPCA-SMF)算法。RPCA-SMF采用Soft均值滤波的思想,通过两步走的形式,不仅在模型学习前对噪声处理,同时在模型学习后也引入了噪声处理机制。具体而言,RPCA-SMF算法首先引入了均值滤波的相关思想,通过对比样本与其局部近邻这两者和局部均值的偏差对样本进行Soft加权,从而对噪声进行判定。随后,通过第一步获取的关于噪声的“判别知识”处理噪声信息。由于均值滤波能有效保留数据的整体轮廓信息,因此对于被识别为噪声的样本,RPCA-SMF算法强调保留其低频整体轮廓信息,而非高频的噪声信息。这样能够有效地保留数据中的有用信息,提高对数据整体结构特征的保留能力,使得算法具有较强的鲁棒性和较好的泛化性。展开更多
文摘降维对于数据的可视化和预处理具有重要意义,主成分分析作为最常用的无监督降维算法之一,在实际应用中面临着对噪声和离群点敏感的问题。为了解决这个问题,研究者们提出了多种鲁棒主成分分析算法,通过减小整体样本的重构误差来减小离群点的影响。然而,这些算法忽略了数据的固有局部结构,导致数据的本质结构信息丢失,从而影响了对噪声和离群点的准确辨识和移除,进而影响了后续算法的性能。因此,该文提出了基于Soft均值滤波的鲁棒主成分分析(Robust Principal Component Analysis Based on Soft Mean Filtering,RPCA-SMF)算法。RPCA-SMF采用Soft均值滤波的思想,通过两步走的形式,不仅在模型学习前对噪声处理,同时在模型学习后也引入了噪声处理机制。具体而言,RPCA-SMF算法首先引入了均值滤波的相关思想,通过对比样本与其局部近邻这两者和局部均值的偏差对样本进行Soft加权,从而对噪声进行判定。随后,通过第一步获取的关于噪声的“判别知识”处理噪声信息。由于均值滤波能有效保留数据的整体轮廓信息,因此对于被识别为噪声的样本,RPCA-SMF算法强调保留其低频整体轮廓信息,而非高频的噪声信息。这样能够有效地保留数据中的有用信息,提高对数据整体结构特征的保留能力,使得算法具有较强的鲁棒性和较好的泛化性。