为克服不平衡数据集中存在的噪声、小分离、类内和类间不平衡问题,提出一种基于HDBSCAN(hierarchical density-based spatial clustering of applications with noise)聚类的自适应过采样技术。该技术只对HDBSCAN发现的任意形状的集群...为克服不平衡数据集中存在的噪声、小分离、类内和类间不平衡问题,提出一种基于HDBSCAN(hierarchical density-based spatial clustering of applications with noise)聚类的自适应过采样技术。该技术只对HDBSCAN发现的任意形状的集群进行过采样,在稀疏度大的集群中自适应地合成较多的样本,在稀疏度小的集群中合成相对较少的样本,且合成的样本靠近集群中心。实验结果表明,该方法可有效避免不平衡数据集中噪声的产生,同时克服类间和类内不平衡问题,为不平衡学习提供了一种过采样策略。展开更多
文摘为克服不平衡数据集中存在的噪声、小分离、类内和类间不平衡问题,提出一种基于HDBSCAN(hierarchical density-based spatial clustering of applications with noise)聚类的自适应过采样技术。该技术只对HDBSCAN发现的任意形状的集群进行过采样,在稀疏度大的集群中自适应地合成较多的样本,在稀疏度小的集群中合成相对较少的样本,且合成的样本靠近集群中心。实验结果表明,该方法可有效避免不平衡数据集中噪声的产生,同时克服类间和类内不平衡问题,为不平衡学习提供了一种过采样策略。