期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
大数据中基于熵加权的稀疏分数特征选择聚类算法 被引量:5
1
作者 魏霖静 宁璐璐 +1 位作者 郭斌 侯振兴 《计算机应用研究》 CSCD 北大核心 2018年第8期2293-2294,2303,共3页
为了提高大数据统计及分析的效率,有必要对数据集合进行聚类,以减少数据集合维度,并去掉相似数据冗余。采用熵加权和稀疏分数特征选择相结合,一方面对异构数据进行局部结构划分,降低数据维度,对局部结构的特征重要性标记并排序,提高聚... 为了提高大数据统计及分析的效率,有必要对数据集合进行聚类,以减少数据集合维度,并去掉相似数据冗余。采用熵加权和稀疏分数特征选择相结合,一方面对异构数据进行局部结构划分,降低数据维度,对局部结构的特征重要性标记并排序,提高聚类精度,另一方面,提高聚类稳定性。实验证明,该方法对不同种类的大数据聚类具有较强的适用性。 展开更多
关键词 数据聚类 熵加权 稀疏分数 特征选择 数据维度 大数据
在线阅读 下载PDF
高维数据分类中的特征降维研究 被引量:4
2
作者 刘立月 黄兆华 刘遵雄 《江西师范大学学报(自然科学版)》 CAS 北大核心 2012年第2期131-134,共4页
以高维分类为目标,从分类的准确率与模型解释性角度探讨了降维的必要性,分析了特征选择与抽取2类方法特点,并对常用的特征抽取方法,包括主成分分析(PCA)、偏最小二乘(PLS)和非负矩阵分解(NMF)进行了阐述.考虑到约减后的数据缺乏稀疏性... 以高维分类为目标,从分类的准确率与模型解释性角度探讨了降维的必要性,分析了特征选择与抽取2类方法特点,并对常用的特征抽取方法,包括主成分分析(PCA)、偏最小二乘(PLS)和非负矩阵分解(NMF)进行了阐述.考虑到约减后的数据缺乏稀疏性与可解释性,提出了基于稀疏正则化的特征抽取模型,为高维特征降维提供了一种新思路. 展开更多
关键词 高维数据 降维 特征抽取 稀疏正则化
在线阅读 下载PDF
基于SS/OSF实现高维稀疏数据对象的聚类 被引量:5
3
作者 吴萍 宋瀚涛 +2 位作者 牛振东 张利萍 张聚礼 《北京理工大学学报》 EI CAS CSCD 北大核心 2006年第3期216-220,共5页
为了解决传统聚类方法处理高维稀疏数据对象时聚类结果不理想的问题,提出了SS/OSF聚类方法.该方法基于对象组相似度(SS)和对象组特征向量(OSF),并借助对象组特征向量的可加性实现.采用本方法得到高维稀疏数据对象的聚类结果后,可以根据... 为了解决传统聚类方法处理高维稀疏数据对象时聚类结果不理想的问题,提出了SS/OSF聚类方法.该方法基于对象组相似度(SS)和对象组特征向量(OSF),并借助对象组特征向量的可加性实现.采用本方法得到高维稀疏数据对象的聚类结果后,可以根据聚类结果中各个对象集合的上确界和下确界为新对象进行对象组分类.实验表明,与传统K-means聚类方法相比,随着数据对象数目的增加,该方法无论是在运行时间上,还是在聚类结果的准确度方面都有明显的改进. 展开更多
关键词 高维稀疏二态数据 对象组相似度 对象组特征向量 聚类 分类
在线阅读 下载PDF
基于改进的局部敏感哈希算法实现图像型垃圾邮件过滤 被引量:13
4
作者 曹玉东 刘艳洋 +1 位作者 贾旭 王冬霞 《计算机应用研究》 CSCD 北大核心 2016年第6期1693-1696,共4页
提出一种快速的图像型垃圾邮件过滤方案,结合半监督机器学习技术改进局部敏感哈希(LSH)算法,基于改进的LSH算法构建垃圾图像特征库索引,提高图像的查找速度。搜集并构造了60 000个垃圾图像样本,实验结果表明,利用改进的LSH算法能有效地... 提出一种快速的图像型垃圾邮件过滤方案,结合半监督机器学习技术改进局部敏感哈希(LSH)算法,基于改进的LSH算法构建垃圾图像特征库索引,提高图像的查找速度。搜集并构造了60 000个垃圾图像样本,实验结果表明,利用改进的LSH算法能有效地提高垃圾图像的过滤速度。 展开更多
关键词 垃圾图像过滤 局部敏感哈希 图像特征提取 高维数据索引
在线阅读 下载PDF
多层极限学习机在入侵检测中的应用 被引量:18
5
作者 康松林 刘乐 +1 位作者 刘楚楚 廖锓 《计算机应用》 CSCD 北大核心 2015年第9期2513-2518,共6页
针对神经网络在入侵检测应用存在的维度高、数据大、获取标记样本难、特征构造难、训练难等问题,提出了一种基于深度多层极限学习机(ML-ELM)的入侵检测方法。首先,采用多层网络结构和深度学习方法抽取检测样本最高层次的抽象特征,用奇... 针对神经网络在入侵检测应用存在的维度高、数据大、获取标记样本难、特征构造难、训练难等问题,提出了一种基于深度多层极限学习机(ML-ELM)的入侵检测方法。首先,采用多层网络结构和深度学习方法抽取检测样本最高层次的抽象特征,用奇异值对入侵检测数据进行特征表达;然后,利用极限学习机(ELM)建立入侵检测数据的分类模型;其次,利用逐层的无监督学习方法解决入侵检测获取标记样本难的问题;最后采用KDD99数据集对该方法的性能进行了验证。实验结果表明:多层极限学习机的方法提高了检测正确率,检测漏报率也低至0.48%,检测速度比其他深度模型的检测方法提高了6倍以上。同时在极少标记样本的情况下仍有85%以上的正确率。通过多层网络结构的构建提高了对U2L、R2L这两类攻击的检测率。该方法集成深度学习和无监督学习的优点,能对高维度,大数据的网络记录用较少的参数得到更好的表达,在入侵检测的检测速度以及特征表达两个方面都具有优势。 展开更多
关键词 入侵检测 高维度 大数据 标记样本 特征构造 训练 多层极限学习机
在线阅读 下载PDF
基于稀疏聚类的高维数据特征选择及应用 被引量:3
6
作者 张陶陶 胡亚南 +1 位作者 李扬 田茂再 《统计与决策》 CSSCI 北大核心 2017年第4期18-24,共7页
文章研究了一种高维数据聚类特征选择方法——稀疏聚类,稀疏聚类是通过对特征变量赋予权重,并添加lasso惩罚因子,压缩权重,得到对变量的权重排序,即重要性排序,使其在进行分类预测的同时达到自动剔除冗余变量的效果,从而起到了对高维数... 文章研究了一种高维数据聚类特征选择方法——稀疏聚类,稀疏聚类是通过对特征变量赋予权重,并添加lasso惩罚因子,压缩权重,得到对变量的权重排序,即重要性排序,使其在进行分类预测的同时达到自动剔除冗余变量的效果,从而起到了对高维数据聚类时的特征选择作用。将此方法运用于中国环保问题,将中国31个省份根据环保情况分为3类,并从现有的104个环保指标中筛选得到20个重要指标。 展开更多
关键词 稀疏聚类 高维数据 聚类 特征选择
在线阅读 下载PDF
基于主题扩展的领域问题分类方法 被引量:10
7
作者 张青 吕钊 《计算机工程》 CAS CSCD 北大核心 2016年第9期202-207,213,共7页
领域问题分类在问答系统中占有重要地位,但目前面向特定领域的研究较少。针对领域问题文本篇幅较短、数据稀疏的特点,提出基于主题扩展的领域问题分类方法。该方法主要包括特征选择和特征扩展2个部分。利用卡方统计量特征选择方法,将问... 领域问题分类在问答系统中占有重要地位,但目前面向特定领域的研究较少。针对领域问题文本篇幅较短、数据稀疏的特点,提出基于主题扩展的领域问题分类方法。该方法主要包括特征选择和特征扩展2个部分。利用卡方统计量特征选择方法,将问题文本选择的特征词作为特征扩展的依据。通过潜在狄利克雷分配主题模型对外部知识库进行分析,得到对应的主题分布。为避免引入噪声主题,采用主题熵的方法得到优质主题。将优质主题下所覆盖的词扩充到问题文本中,最后利用支持向量机分类器对问题文本进行分类。实验结果表明,与传统TFIDF文本分类方法相比,该方法分类效果较好,可提高问答系统的性能。 展开更多
关键词 领域问题分类 数据稀疏 特征选择 主题模型 优质主题 特征扩展
在线阅读 下载PDF
考虑数据排序的改进CABOSFV聚类 被引量:2
8
作者 武森 王静 谭一松 《计算机工程与应用》 CSCD 北大核心 2011年第34期127-129,共3页
CABOSFV是基于稀疏特征进行高维数据聚类的高效算法,但算法的聚类质量受数据输入顺序的影响。针对此问题,提出考虑数据排序的改进CABOSFV聚类(CABOSFV_CS),通过定义稀疏性指数来描述数据的稀疏特征,并按照稀疏性指数升序对数据进行排序... CABOSFV是基于稀疏特征进行高维数据聚类的高效算法,但算法的聚类质量受数据输入顺序的影响。针对此问题,提出考虑数据排序的改进CABOSFV聚类(CABOSFV_CS),通过定义稀疏性指数来描述数据的稀疏特征,并按照稀疏性指数升序对数据进行排序以改进CABOSFV算法的聚类质量。采用UCI基准数据集进行实验,结果表明与传统的CABOSFV算法相比,CABOSFV_CS有效地提高了聚类准确率。 展开更多
关键词 CABOSFV算法 高维数据 稀疏特征 聚类
在线阅读 下载PDF
高维数据特征提取算法的研究及比较 被引量:2
9
作者 林晓立 陈恩红 任皖英 《计算机科学》 CSCD 北大核心 2003年第4期168-170,共3页
This paper introduces and analyzes several feature extraction algorithms. These algorithms use linear or non-linear feature extraction methods to project high-dimensional objects into lower dimensional space, thus the... This paper introduces and analyzes several feature extraction algorithms. These algorithms use linear or non-linear feature extraction methods to project high-dimensional objects into lower dimensional space, thus the complexity of the operations upon them, such as clustering, the nearest-neighbor search, visualization and etc can be reduced. The paper also presents some comparative experimental results of these algorithms and analyzes briefly their advantages or shortcomings. 展开更多
关键词 Bourgain算法 Cofe算法 高维数据特征提取算法 数据集中 数据处理
在线阅读 下载PDF
差分隐私的高维数据发布研究综述 被引量:7
10
作者 张兴 陈昊 《智能系统学报》 CSCD 北大核心 2021年第6期989-998,共10页
大数据时代的到来,使得信息量暴增的同时,数据维度也呈现几何式增长。在保护用户隐私的前提下,如何充分挖掘高维数据的可用信息,成为了大数据发布领域的研究热点和难点。差分隐私作为一种强大的隐私保护模型,被越来越多地应用到高维数... 大数据时代的到来,使得信息量暴增的同时,数据维度也呈现几何式增长。在保护用户隐私的前提下,如何充分挖掘高维数据的可用信息,成为了大数据发布领域的研究热点和难点。差分隐私作为一种强大的隐私保护模型,被越来越多地应用到高维数据发布中。本文归纳了差分隐私及其相关方法在高维数据发布的应用,重点分析了差分隐私和特征降维、特征抽取、贝叶斯网络、树模型以及最新提出的粗糙集和随机投影等方法在高维数据发布中结合应用的优缺点,梳理了各个方法在高维数据方面的应用和对比,最后对未来差分隐私在高维数据发布中的应用方向进行了展望。 展开更多
关键词 大数据发布 隐私保护 数据挖掘 高维数据 特征降维 贝叶斯网络 粗糙集 随机投影 差分隐私
在线阅读 下载PDF
基于启发式参考集选取的复杂数据特征提取算法
11
作者 林晓立 陈恩红 任皖英 《计算机工程》 CAS CSCD 北大核心 2003年第19期68-69,179,共3页
对当前具有代表性的几种特征提取算法进行了分析与比较,并在Bourgain算法的基础上,提出一种基于数据类别数及各类代表元素等启发式信息的复杂数据特征提取算法。对于M类复杂数据,该算法可以提取出维向量用来表示这些数据。针对实际数据... 对当前具有代表性的几种特征提取算法进行了分析与比较,并在Bourgain算法的基础上,提出一种基于数据类别数及各类代表元素等启发式信息的复杂数据特征提取算法。对于M类复杂数据,该算法可以提取出维向量用来表示这些数据。针对实际数据,对几种算法的降维性能进行了比较实验,实验结果表明该算法具有很好的特征提取效果。 展开更多
关键词 高维数据 特征提取 降维
在线阅读 下载PDF
具有稀疏特征的对象—属性子空间边缘重叠区域归属算法
12
作者 祝琴 陈华 《计算机应用研究》 CSCD 北大核心 2013年第1期99-102,113,共5页
通过分析具有稀疏特征的对象—属性子空间的特征,发现其边缘存在交叉重叠区域现象,为此,提出了基于聚类思想的具有稀疏特征的对象—属性子空间边缘的重叠区域归属算法(OASEDA),该算法能有效解决对象—属性子空间的独立性,算法根据子空... 通过分析具有稀疏特征的对象—属性子空间的特征,发现其边缘存在交叉重叠区域现象,为此,提出了基于聚类思想的具有稀疏特征的对象—属性子空间边缘的重叠区域归属算法(OASEDA),该算法能有效解决对象—属性子空间的独立性,算法根据子空间内部紧凑度和子空间之间分离度相对大小确定子空间边缘重叠区域的归属,并基于K-means算法结合权重理论设计了重叠区域归属判断目标函数,最后通过实验证明了该方法的有效性。 展开更多
关键词 具有稀疏特征的高维数据 对象—属性子空间 对象—属性子空间边缘重叠区域
在线阅读 下载PDF
基于对象组特征向量的聚类与分类的实现
13
作者 吴萍 张利萍 《计算机工程》 EI CAS CSCD 北大核心 2006年第16期17-19,57,共4页
高维稀疏数据的聚类分析是目前数据挖掘领域内亟待解决的问题之一。传统的聚类方法中,大部分不适用于高维稀疏数据,不能得到满意的结果。该文借助对象组相似度和对象组的特征向量,提出了一种实现聚类的方法。根据聚类结果后,根据聚类集... 高维稀疏数据的聚类分析是目前数据挖掘领域内亟待解决的问题之一。传统的聚类方法中,大部分不适用于高维稀疏数据,不能得到满意的结果。该文借助对象组相似度和对象组的特征向量,提出了一种实现聚类的方法。根据聚类结果后,根据聚类集合的上确界和下确界给出新对象的分类。该方法思想明了,实现起来简单轻松,结果准确可靠。 展开更多
关键词 高维稀疏二态数据 对象组相似度 对象组特征向量 聚类 分类
在线阅读 下载PDF
基于稀疏学习的鲁棒自表达属性选择算法
14
作者 何威 刘星毅 +1 位作者 程德波 胡荣耀 《计算机应用与软件》 CSCD 2016年第11期193-196,239,共5页
受属性选择处理高维数据表现的高效性和低秩自表达方法在子空间聚类上成功运用的启发,提出一种基于稀疏学习的自表达属性选择算法。算法首先将每个属性用其他属性线性表示得到自表达系数矩阵;然后结合稀疏学习的理论(即整合L2,1-范数为... 受属性选择处理高维数据表现的高效性和低秩自表达方法在子空间聚类上成功运用的启发,提出一种基于稀疏学习的自表达属性选择算法。算法首先将每个属性用其他属性线性表示得到自表达系数矩阵;然后结合稀疏学习的理论(即整合L2,1-范数为稀疏正则化项惩罚目标函数)实现属性选择。在以分类准确率和方差作为评价指标下,相比其他算法,实验结果表明该算法可更高效地选择出重要属性,且显示出非常好的鲁棒性。 展开更多
关键词 高维数据 属性选择 属性自表达 稀疏学习
在线阅读 下载PDF
基于稀疏正则化的高维数据可视化分析技术 被引量:4
15
作者 陈海辉 周向东 施伯乐 《计算机应用与软件》 2017年第6期22-26,119,共6页
高维数据可视化分析是数据分析与可视化领域的研究热点,传统的降维方法得到的低维空间往往难以解释,不利于人们对高维数据的可视化分析与探索。提出一种新的可视化解释器(Explainer)方法,将L1稀疏正则化特征选取引入到高维数据的可视化... 高维数据可视化分析是数据分析与可视化领域的研究热点,传统的降维方法得到的低维空间往往难以解释,不利于人们对高维数据的可视化分析与探索。提出一种新的可视化解释器(Explainer)方法,将L1稀疏正则化特征选取引入到高维数据的可视化处理过程中,建立起高层语义标签与少量的关键特征之间的联系。通过可视化设计与实验验证了该方法可以有效改善高维数据的可视化分析性能。 展开更多
关键词 高维数据 特征选取 稀疏学习 可视化分析 降维 投影
在线阅读 下载PDF
超高维数据特征筛选方法综述 被引量:13
16
作者 牛勇 李华鹏 +3 位作者 刘阳惠 熊世峰 於州 张日权 《应用概率统计》 CSCD 北大核心 2021年第1期69-110,共42页
随着数据收集和存储能力的大幅提高,超高维数据[9],即数据维数伴随着样本呈指数增长,频繁出现在许多科学邻域.此时,惩罚类变量选择方法普遍遭遇三个方面的挑战:计算的复杂性,统计的准确性以及算法的稳定性.Fan和Lv[9]首先提出超高维特... 随着数据收集和存储能力的大幅提高,超高维数据[9],即数据维数伴随着样本呈指数增长,频繁出现在许多科学邻域.此时,惩罚类变量选择方法普遍遭遇三个方面的挑战:计算的复杂性,统计的准确性以及算法的稳定性.Fan和Lv[9]首先提出超高维特征筛选的方法,并在近十多年取得大量研究成果,成为当今统计最热点的研究邻域.本文主要从带模型假设,包含参数、非参数半参数模型假定的筛选方法、无模型假设的筛选以及特殊数据的筛选方法四个角度来介绍超高维筛选相关工作,并简要探讨目前超高维筛选方法存在的问题以及未来可能的研究方向. 展开更多
关键词 超高维 特征筛选 可加模型 非参数独立筛选 确保筛选性质 线性模型 变量选择 组变量选择 充分降维 纵向数据 稀疏性
在线阅读 下载PDF
微博文本聚类中特征扩展策略研究 被引量:2
17
作者 段旭磊 张仰森 郭正斌 《计算机工程与应用》 CSCD 北大核心 2017年第13期90-94,195,共6页
针对微博文本高维、稀疏的特点,比较基于同义词词林等外部知识库的文本扩展策略,利用Word2vec训练微博语料,并构建微博上下文相关词词表,通过种子词表和微博标签信息去扩展微博文本流中的关键词,最后提出了提取微博文本关键词及区分词... 针对微博文本高维、稀疏的特点,比较基于同义词词林等外部知识库的文本扩展策略,利用Word2vec训练微博语料,并构建微博上下文相关词词表,通过种子词表和微博标签信息去扩展微博文本流中的关键词,最后提出了提取微博文本关键词及区分词向量中相似词和相关词的方法。实验结果证明,微博短文本经过Word2vec词向量相关词及微博标签扩展后,其聚类效果有了明显提高。 展开更多
关键词 微博文本 高维稀疏 关键词提取 相似词 相关词 特征扩展 聚类
在线阅读 下载PDF
稀疏谱聚类算法在高维数据上的应用 被引量:3
18
作者 徐雪丽 赵学靖 《中国科学技术大学学报》 CAS CSCD 北大核心 2017年第4期311-319,共9页
提出一种新的稀疏谱聚类算法——基于PAM算法的HSSPAM聚类(high-dimensional sparse spectral clustering based on partitioning around medoids).该算法先用高相关系数过滤及主成分分析降维方法以有效减小甚至消除维度灾难对高维数据... 提出一种新的稀疏谱聚类算法——基于PAM算法的HSSPAM聚类(high-dimensional sparse spectral clustering based on partitioning around medoids).该算法先用高相关系数过滤及主成分分析降维方法以有效减小甚至消除维度灾难对高维数据处理的影响,再采用Minkowski距离指数变换函数及稀疏化算法来构建分块对角矩阵以重新解释样本之间的相似度;然后构造新颖的拉普拉斯矩阵以实现进一步压缩数据矩阵,进而结合partitioning around medoids(PAM)算法取代传统谱聚类中的K-means算法对特征向量聚类以提高算法的聚类稳定性;最后引入高维基因数据设计了实验,并以不同的聚类评价指标来衡量该研究算法的聚类质量,实验结果表明,新算法能够更精确、更稳定地对基因数据聚类. 展开更多
关键词 高维数据聚类 稀疏谱聚类算法 降维方法 分块对角矩阵 聚类评价指标
在线阅读 下载PDF
稀疏谱聚类方法及应用 被引量:1
19
作者 徐雪丽 苏锦霞 《兰州大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第5期685-690,共6页
提出了一种新的谱聚类算法:基于K-Medoids的SSKM聚类,不仅利用距离指数变换函数及稀疏化算法构建了分块对角矩阵以重新解释样本之间的相似度,还结合PAM算法取代传统谱聚类中的k-means算法对特征向量聚类以提高算法的聚类稳定性.为了使S... 提出了一种新的谱聚类算法:基于K-Medoids的SSKM聚类,不仅利用距离指数变换函数及稀疏化算法构建了分块对角矩阵以重新解释样本之间的相似度,还结合PAM算法取代传统谱聚类中的k-means算法对特征向量聚类以提高算法的聚类稳定性.为了使SSKM算法能够有效地处理高维数据,引入了高相关系数过滤及主成分分析降维技术,提出了SSKM算法的新版本HSSKM,能够识别高维数据结构以减少原始数据的特征规模.模拟数据及高维基因表达数据结果表明新算法具有聚类稳定、聚类结果更精确等显著性能. 展开更多
关键词 稀疏谱聚类 高维数据 降维技术 聚类评价指标
在线阅读 下载PDF
非线性降维技术与可视化应用 被引量:3
20
作者 杜杰 王骁 胡良剑 《东华大学学报(自然科学版)》 CAS 北大核心 2020年第4期675-680,共6页
基于非线性降维技术有助于发现高维数据内在结构与几何分布的理论基础,根据特征保留形式将目前非线性降维技术分为3类,并对其中具有代表性的算法进行分析。通过与经典线性降维技术进行对比,证明了非线性降维技术在数据可视化应用中的优... 基于非线性降维技术有助于发现高维数据内在结构与几何分布的理论基础,根据特征保留形式将目前非线性降维技术分为3类,并对其中具有代表性的算法进行分析。通过与经典线性降维技术进行对比,证明了非线性降维技术在数据可视化应用中的优势。针对传统非线性降维技术存在的时间复杂度过高及适用范围有限的问题,系统性地总结了目前该领域的最新改进方式。 展开更多
关键词 非线性 特征保留 高维数据 降维技术 可视化
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部