期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于量子进化算法的非平衡数据混合采样算法 被引量:2
1
作者 杨浩 陈红梅 《计算机科学》 CSCD 北大核心 2020年第11期88-94,共7页
欠采样和过采样是解决非平衡数据分类问题的常用方法。针对目前解决数据非平衡分布主要采用单一的采样方法可能会导致过拟合或重要样本丢失的问题,提出了一种基于量子进化算法的混合采样方法MSQEA(Mixed-Sampling method based on Quant... 欠采样和过采样是解决非平衡数据分类问题的常用方法。针对目前解决数据非平衡分布主要采用单一的采样方法可能会导致过拟合或重要样本丢失的问题,提出了一种基于量子进化算法的混合采样方法MSQEA(Mixed-Sampling method based on Quantum Evolutionary Algorithm)。该方法对多数类和少数类样本分别进行编码,组成量子进化算法中的个体种群,然后通过迭代得到合适的候选采样子集。针对得到的候选采样子集,首先使用欠采样移除多数类样本,避免了后续的过采样方法合成过多冗余的少数类样本的问题,然后采用过采样方法对少数类样本进行过采样,得到一个平衡数据集。同时,为了有效地评价量子个体的适应度,使用聚类算法对原始数据集进行聚类,构建一个有效的验证集来评价个体。为了验证MSQEA算法的性能,在KEEL网站下载的非平衡数据集上,采用SMO,J48和NB等作为分类算法测试不同采样算法处理后的分类性能。实验结果表明,MSQEA算法相比当前较为优秀的采样算法在多种分类器上具有更好的分类性能。 展开更多
关键词 非平衡数据 量子进化算法 混合采样 分类
在线阅读 下载PDF
基于粗糙集和果蝇优化算法的特征选择方法 被引量:8
2
作者 方波 陈红梅 王生武 《计算机科学》 CSCD 北大核心 2019年第7期157-164,共8页
特征选择是模式识别领域重要的数据预处理步骤之一,旨在从原始特征集合中选出最有效的特征子集使得给定评价准则达到最优。为此,文中提出了一种基于粗糙集和果蝇优化算法的特征选择方法。该方法基于一种新的双策略进化果蝇优化算法进行... 特征选择是模式识别领域重要的数据预处理步骤之一,旨在从原始特征集合中选出最有效的特征子集使得给定评价准则达到最优。为此,文中提出了一种基于粗糙集和果蝇优化算法的特征选择方法。该方法基于一种新的双策略进化果蝇优化算法进行特征子集的迭代寻优,并结合粗糙集属性依赖度和属性重要性构造适应度函数对所选特征子集进行评估,既可以在全局范围内尽可能多地搜索出重要的特征,又能选出对决策最具有贡献的有效特征子集。在UCI数据集上的实验结果表明,提出的特征选择方法可以有效地搜索出具有最少信息损失的特征子集,并达到较高的分类精度。 展开更多
关键词 粗糙集 果蝇优化算法 双策略进化 属性依赖度 属性重要性
在线阅读 下载PDF
一种基于粗糙集和密度峰值的重叠社区发现方法 被引量:5
3
作者 张琴 陈红梅 封云飞 《计算机科学》 CSCD 北大核心 2020年第5期72-78,共7页
随着互联网和社会的发展,各个领域每天都会产生大量相互关联、彼此依赖的数据,这些数据根据不同的主题形成了各种复杂网络。挖掘社区结构是复杂网络领域中的一项重要研究内容,因为其在推荐系统、行为预测和信息传播等方面具有极其重要... 随着互联网和社会的发展,各个领域每天都会产生大量相互关联、彼此依赖的数据,这些数据根据不同的主题形成了各种复杂网络。挖掘社区结构是复杂网络领域中的一项重要研究内容,因为其在推荐系统、行为预测和信息传播等方面具有极其重要的意义。社区结构中的重叠社区结构在生活中普遍存在,更具有实际研究意义。为有效发现复杂网络中的重叠社区,文中引入了粗糙集理论对社区进行分析,识别出重叠节点,进而提出了一种基于粗糙集和密度峰值的重叠社区发现方法OCDRD(Overlapping Community Detection Algorithm Based on Rough Sets and Density Peaks)。该方法在传统网络节点局部相似性度量的基础上,结合灰色关联分析方法求出网络节点间的全局相似性,进而将其转化为节点间距离。将密度峰值聚类算法的思想应用于该算法中,以根据网络结构自动选取社区中心节点。依据网络中节点的距离比例关系,定义了社区的上近似、下近似以及边界域。最后,不断调整距离比率阈值并进行划分迭代,在每次迭代中针对社区的边界域进行计算,从而获得最佳重叠社区划分结构。在LFR基准人工网络数据集和真实网络数据集上,基于标准互信息(Normalized Mutual Information,NMI)和具有重叠性模块度EQ这两个评价指标,将OCDRD方法与近几年效果较好的其他社区发现算法进行测试比较。实验结果显示,OCDRD方法在社区划分结构方面整体优于其他社区发现算法,表明了该算法的可行性和有效性。 展开更多
关键词 重叠社区发现 粗糙集 密度峰值 灰色关联分析方法
在线阅读 下载PDF
基于粗糙集和距离动态模型的重叠社区发现方法 被引量:4
4
作者 张琴 陈红梅 封云飞 《计算机科学》 CSCD 北大核心 2020年第10期75-82,共8页
现实世界可被看作由许多不同的复杂系统组成。为了建模分析复杂系统中个体间隐藏的规律及功能,将复杂系统抽象为由节点和边组成的复杂网络。挖掘复杂网络中的社区结构在内容推荐、行为预测和疾病扩散等方面具有重要的理论意义和实际价... 现实世界可被看作由许多不同的复杂系统组成。为了建模分析复杂系统中个体间隐藏的规律及功能,将复杂系统抽象为由节点和边组成的复杂网络。挖掘复杂网络中的社区结构在内容推荐、行为预测和疾病扩散等方面具有重要的理论意义和实际价值。随着复杂系统内个体的不断变化,多个社区间出现了重叠节点,有效且准确地挖掘社区中的重叠节点具有一定的挑战性。为了有效发现社区中的重叠节点,提出了一种基于粗糙集和距离动态模型的重叠社区发现方法(Overlapping Community Detection based on Rough sets and Distance Dynamics model,OCDRDD)。该方法首先根据网络的拓扑结构,结合节点度中心性和距离选出K个核心节点;然后按照定义的距离比率关系初始化社区的近似集和边界域,结合距离动态模型,迭代变化边界域节点与下近似集节点间相连的边的距离,且在每次迭代过程中将符合定义的距离比率关系的边界域节点划分到社区下近似集中,以缩小边界域节点(即缩小边界域的范围),直到找到最佳重叠社区结构;最后根据定义的两条规则处理“伪”重叠节点。在真实网络数据集和LFR Benchmark人工网络数据集上,以NMI和具有重叠性的模块度EQ作为评价指标,将OCDRDD方法与近几年具有代表性的社区发现方法进行实验测试比较,发现OCDRDD方法整体优于其他算法,结果表明该算法具有有效性和可行性。 展开更多
关键词 重叠社区发现 粗糙集 距离动态模型 边界域
在线阅读 下载PDF
基于粗糙集和改进鲸鱼优化算法的特征选择方法 被引量:22
5
作者 王生武 陈红梅 《计算机科学》 CSCD 北大核心 2020年第2期44-50,共7页
随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降... 随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降低计算开销和去除冗余特征,以提高机器学习模型的性能,并保留了数据的原始特征,具有良好的可解释性。特征选择已经成为机器学习领域中重要的数据预处理步骤之一。粗糙集理论是一种可用于特征选择的有效方法,它可以通过去除冗余信息来保留原始特征的特性。然而,由于计算所有的特征子集组合的开销较大,传统的基于粗糙集的特征选择方法很难找到全局最优的特征子集。针对上述问题,文中提出了一种基于粗糙集和改进鲸鱼优化算法的特征选择方法。为避免鲸鱼算法陷入局部优化,文中提出了种群优化和扰动策略的改进鲸鱼算法。该算法首先随机初始化一系列特征子集,然后用基于粗糙集属性依赖度的目标函数来评价各子集的优劣,最后使用改进鲸鱼优化算法,通过不断迭代找到可接受的近似最优特征子集。在UCI数据集上的实验结果表明,当以支持向量机为评价所用的分类器时,文中提出的算法能找到具有较少信息损失的特征子集,且具有较高的分类精度。因此,所提算法在特征选择方面具有一定的优势。 展开更多
关键词 特征选择 粗糙集理论 改进鲸鱼优化算法 属性依赖度 最优特征子集
在线阅读 下载PDF
基于差别矩阵和mRMR的分步优化特征选择算法 被引量:6
6
作者 樊鑫 陈红梅 《计算机科学》 CSCD 北大核心 2020年第1期87-95,共9页
分类问题普遍存在于现代工业生产中。在进行分类任务之前,利用特征选择筛选有用的信息,能够有效地提高分类效率和分类精度。最小冗余最大相关算法(mRMR)考虑最大化特征与类别的相关性和最小化特征之间的冗余性,能够有效地选择特征子集;... 分类问题普遍存在于现代工业生产中。在进行分类任务之前,利用特征选择筛选有用的信息,能够有效地提高分类效率和分类精度。最小冗余最大相关算法(mRMR)考虑最大化特征与类别的相关性和最小化特征之间的冗余性,能够有效地选择特征子集;但该算法存在中后期特征重要度偏差大以及无法直接给出特征子集的问题。针对该问题,文中提出了结合邻域粗糙集差别矩阵和mRMR原理的特征选择算法。根据最大相关性和最小冗余性原则,利用邻域熵和邻域互信息定义了特征的重要度,以更好地处理混合数据类型。基于差别矩阵定义了动态差别集,利用差别集的动态演化有效去除冗余属性,缩小搜索范围,优化特征子集,并根据差别矩阵判定迭代截止条件。实验选取SVM,J48,KNN和MLP作为分类器来评价该特征选择算法的性能。在公共数据集上的实验结果表明,与已有算法相比,所提算法的平均分类精度提升了2%左右,同时在特征较多的数据集上能够有效地缩短特征选择时间。所提算法继承了差别矩阵和mRMR的优点,能够有效地处理特征选择问题。 展开更多
关键词 特征选择 邻域粗糙集 差别矩阵 mRMR
在线阅读 下载PDF
基于距离比值尺度的模糊粗糙集属性约简 被引量:6
7
作者 陈毅宁 陈红梅 《计算机科学》 CSCD 北大核心 2020年第3期67-72,共6页
属性约简能有效地去除不必要属性,提高分类器的性能。模糊粗糙集是处理不确定信息的重要范式,能有效地应用于属性约简。在模糊粗糙集中,样本分布的不确定性会影响对象的近似集,进而影响有效属性约简的获取。为有效地定义近似集,文中提... 属性约简能有效地去除不必要属性,提高分类器的性能。模糊粗糙集是处理不确定信息的重要范式,能有效地应用于属性约简。在模糊粗糙集中,样本分布的不确定性会影响对象的近似集,进而影响有效属性约简的获取。为有效地定义近似集,文中提出了基于距离比值尺度的模糊粗糙集,该模型引入了基于距离比值尺度的样本集的定义,通过对距离比值尺度的控制,避免了样本分布不确定性对近似集的影响;给出了该模型的基本性质,定义了新的依赖度函数,进而设计了属性约简算法;以SVM,NaiveBayes和J48作为测试分类器,在UCI数据集上评测所提算法的性能。实验结果表明,所提出的属性约简算法能够有效获取约简并提高分类的精度。 展开更多
关键词 属性约简 模糊粗糙集 距离比值尺度
在线阅读 下载PDF
基于拓扑结构的密度峰值重叠社区发现算法 被引量:4
8
作者 封云飞 陈红梅 《计算机科学》 CSCD 北大核心 2019年第10期39-48,共10页
现代网络科学的不断发展,为人们的生活提供了极大的便利。对复杂网络的研究是推动现代网络科学发展的重要动力,而社区是研究复杂网络的重要结构。已有的社区发现方法大多是高度复杂的,这不利于有效挖掘复杂网络。为了研究更高效的社区... 现代网络科学的不断发展,为人们的生活提供了极大的便利。对复杂网络的研究是推动现代网络科学发展的重要动力,而社区是研究复杂网络的重要结构。已有的社区发现方法大多是高度复杂的,这不利于有效挖掘复杂网络。为了研究更高效的社区发现算法,文中将近年来被提出的密度峰值聚类算法应用于社区发现中,对密度峰值算法进行改进,提出了一种高效的社区发现算法。将密度峰值算法应用于社区发现存在一些问题,由于复杂网络数据结构具有特殊性,其数据大多以拓扑图或邻接矩阵的形式存储,因此将密度峰值聚类算法应用到社区发现中的核心问题是如何有效地计算网络中各节点间的距离、节点局部密度和选择中心节点。针对该问题,文中通过网络拓扑图中各节点及其邻居节点的度来计算每一个节点的局部密度,通过节点间的相似度来度量节点间的距离,并对距离进行离散化处理,以便选取社区中心节点;定义了核心跳变值来更精确地选取社区中心,防止大社区吞并小社区;基于LFR人工网络和真实网络数据集,将所提算法与已有算法进行比较,并采用扩展的模块度、调整兰德系数以及归一化互信息对实验结果进行评估。真实网络中的实验结果表明了所提算法具有不错的效果,且在一些真实场景中具有明显优势;在人工网络中,所提算法同样具有优势,同时其相比其他算法更加稳定。 展开更多
关键词 社区发现 重叠社区 密度峰值 拓扑结构 数据挖掘
在线阅读 下载PDF
基于代价敏感卷积神经网络的非平衡问题混合方法 被引量:4
9
作者 黄颖琦 陈红梅 《计算机科学》 CSCD 北大核心 2021年第9期77-85,共9页
非平衡问题是数据挖掘领域中普遍存在的一个问题,数据的偏态分布会使得分类器的分类效果不理想。卷积神经网络作为一种高效的数据挖掘工具,被广泛应用于分类任务,但其训练过程若受到数据非平衡的不利影响,则将导致少数类的分类准确率下... 非平衡问题是数据挖掘领域中普遍存在的一个问题,数据的偏态分布会使得分类器的分类效果不理想。卷积神经网络作为一种高效的数据挖掘工具,被广泛应用于分类任务,但其训练过程若受到数据非平衡的不利影响,则将导致少数类的分类准确率下降。针对二分类非平衡数据分类问题,文中提出了一种基于代价敏感卷积神经网络的非平衡问题混合方法。首先将密度峰值聚类算法与SMOTE相结合,通过过采样对数据进行预处理,降低原始数据集的不平衡程度;然后利用代价敏感思想对非平衡数据中的不同类别给予不同权重,并考虑预测值与标签值之间的欧氏距离,对非平衡数据中多数类和少数类赋予不同的代价损失,构建代价敏感卷积神经网络模型,以提高卷积神经网络对少数类的识别率。选取6个不同的数据集,用于验证所提方法的有效性。实验结果表明,所提方法可以提高卷积神经网络模型对非平衡数据的分类性能。 展开更多
关键词 非平衡问题 卷积神经网络 过采样 数据预处理 代价敏感损失函数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部