期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于平衡分层K均值的正交无监督大型图嵌入降维算法
1
作者 张志丽 古晓明 王文晶 《计算机应用与软件》 北大核心 2024年第9期348-356,362,共10页
为了降低大规模数据集降维的计算代价,提出一种基于平衡分层K均值的正交无监督图嵌入降维方法。该文给出局部保持投影和谱回归等价的充分必要条件;基于平衡分层K-means的锚生成策略,构建加快局部保持投影求解过程的特殊相似矩阵;再结合... 为了降低大规模数据集降维的计算代价,提出一种基于平衡分层K均值的正交无监督图嵌入降维方法。该文给出局部保持投影和谱回归等价的充分必要条件;基于平衡分层K-means的锚生成策略,构建加快局部保持投影求解过程的特殊相似矩阵;再结合正交约束,提出正交化无监督大型图嵌入降维方法;在几种公开数据集上进行扩展实验,结果表明提出的方法能够对大规模数据集实现高效快速的降维。 展开更多
关键词 数据降维 平衡分层K均值 局部保持投影 无监督大型图嵌入
在线阅读 下载PDF
一种基于区域划分的数据流子空间聚类方法 被引量:15
2
作者 于翔 印桂生 +1 位作者 许宪东 王建伟 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期88-95,共8页
数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种... 数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种新的数据流子空间聚类算法SC-RP,SC-RP无需预先给出聚类数目或特征子空间,对孤立点不敏感,可实现快速聚类,通过区域树结构记录数据流的变化并及时更新统计信息,进而根据数据流的变化调整聚类结果.通过在真实数据集与仿真数据集上的实验,证明了SC-RP在聚类精度和速度上优于现有的数据流子空间聚类算法,且对聚类数目及数据维度均具有良好的伸缩性. 展开更多
关键词 数据挖掘 数据流 子空间聚类 特征选择 维度约简
在线阅读 下载PDF
基于主基底分析的变量筛选 被引量:18
3
作者 王惠文 仪彬 叶明 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2008年第11期1288-1291,共4页
利用Gram-Schmidt变换,提出一种主基底分析方法.解释并证明了Gram-Schmidt变换所删除的信息量.给出"主基底"的定义及构造方法,并提出"净信息含量比"的概念,用以测度所选基底包含的信息.该方法能在原始数据信息损失... 利用Gram-Schmidt变换,提出一种主基底分析方法.解释并证明了Gram-Schmidt变换所删除的信息量.给出"主基底"的定义及构造方法,并提出"净信息含量比"的概念,用以测度所选基底包含的信息.该方法能在原始数据信息损失尽可能小的前提下,排除所有的冗余变量以及变量集合中的重叠信息,得到一个正交的主基底,从而更有效地对大规模变量集合中的信息进行筛选.多角度的理论分析指出,主基底在尽可能多地携带原始变量信息的同时,还可保证样本点间的相似性改变最小.实际案例分析说明了该方法的合理性和有效性. 展开更多
关键词 Gram—Schmidt变换 变量筛选 数据降维 主基底
在线阅读 下载PDF
基于弹性网降维及花授粉算法优化BP神经网络的短期电力负荷预测 被引量:45
4
作者 张淑清 杨振宁 +2 位作者 张立国 苑世钰 王志义 《仪器仪表学报》 EI CAS CSCD 北大核心 2019年第7期47-54,共8页
电力负荷预测为电力系统规划和运行提供可靠的决策依据。随着智能电网的全面发展,数据采集与监视控制系统(SCADA)获取数据量增加,数据的结构也更加复杂,负荷的频繁变化以及地区性的气象因素等都将影响负荷的预测的准确性。提出一种弹性... 电力负荷预测为电力系统规划和运行提供可靠的决策依据。随着智能电网的全面发展,数据采集与监视控制系统(SCADA)获取数据量增加,数据的结构也更加复杂,负荷的频繁变化以及地区性的气象因素等都将影响负荷的预测的准确性。提出一种弹性网(EN)进行大数据降维以及花授粉算法(FPA)优化BP神经网络的短期电力负荷预测方法。首先采用弹性网对负荷和气象等高维大数据进行选择和降维。弹性网通过在惩罚项中添加L1范数和L2范数,兼具了最小绝对值收缩及变量选择(LASSO)和岭回归的优点,克服了LASSO降维时因为数据内部存在共线性和群组效应而影响降维效果的问题;然后,考虑到BP神经网络权值和阈值容易受到初值的影响、收敛速度慢以及容易陷入局部最优,引入花授粉算法(FPA)优化BP神经网络,通过与粒子群算法(PSO)对比得出花授粉算法寻优速度更快,效果更好。本文方法应用于实际电力负荷预测,结果表明能有效提高预测精度。 展开更多
关键词 短期电力负荷预测 大数据变量选择及降维 最小绝对值收缩及变量选择 弹性网 花授粉算法优化BP神经网络
在线阅读 下载PDF
光谱数据的特征挖掘降维方法 被引量:4
5
作者 戴琼海 张晶 +1 位作者 李菲菲 范静涛 《数据采集与处理》 CSCD 北大核心 2016年第6期1097-1105,共9页
"去繁存精"的光谱数据解耦方法可去除高维光谱数据的大量冗余,提炼其特征谱段,是光谱仪器得以广泛应用的重要基础。应用各异性和光谱特征优选方法普适性所构成的矛盾,在一定程度上制约了光谱仪器的应用。本文提出了序列前向选... "去繁存精"的光谱数据解耦方法可去除高维光谱数据的大量冗余,提炼其特征谱段,是光谱仪器得以广泛应用的重要基础。应用各异性和光谱特征优选方法普适性所构成的矛盾,在一定程度上制约了光谱仪器的应用。本文提出了序列前向选择(Sequential forward selection,SFS)的光谱特征自适应数据挖掘方法,生成最优变量组合作为支持向量机(Support vector machine,SVM)分类模型的输入,在对光谱数据降维的同时,实现了高精度的数据分类。本文方法可有效解决大量光谱数据的多类分类问题,并在红木分类中得到了实际验证和应用,为破解因光谱特征峰高度混叠而难以进行主观经验特征选择的困境提供了新思路。 展开更多
关键词 光谱数据 特征挖掘 序列前向选择 数据降维
在线阅读 下载PDF
基于神经网络的大规模数据集离群点检测算法 被引量:10
6
作者 高志宇 宋学坤 +2 位作者 肖俊生 闫培玲 孙新娟 《沈阳工业大学学报》 CAS 北大核心 2022年第4期420-425,共6页
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在... 针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点. 展开更多
关键词 神经网络 大规模数据集 离群点检测 冗余数据 降维处理 误差函数 核主成分分析 中心势值
在线阅读 下载PDF
基于高斯过程隐变量模型的图像数据降维算法 被引量:4
7
作者 郭莉莉 刘春光 +1 位作者 王迪 韩忠华 《控制工程》 CSCD 北大核心 2014年第5期687-690,共4页
针对传统谱算法在数据降维计算复杂度高的缺点,提出一种基于高斯过程隐变量模型的图像数据降维算法。首先,通过高斯过程(Gaussian Process,GP)建立图像数据的概率模型,得到图像数据的隐变量模型;其次,利用概率最大化原则得到最优超参数... 针对传统谱算法在数据降维计算复杂度高的缺点,提出一种基于高斯过程隐变量模型的图像数据降维算法。首先,通过高斯过程(Gaussian Process,GP)建立图像数据的概率模型,得到图像数据的隐变量模型;其次,利用概率最大化原则得到最优超参数,通过最优超参数求取最优数据降维结果;最后,实现图像数据降维。选取Yale,ORL两类数据集与传统算法进行人脸识别对比实验,实验结果表明:所提出的算法针对图像数据降维问题有较好的效果,结合支持向量机算法,可有效地对人脸图像进行识别,且有较高的识别率,从而体现出算法对高维数据降维的准确性。 展开更多
关键词 高斯过程隐变量模型 数据降维 人脸识别 超参数 概率最大化
在线阅读 下载PDF
高维面板数据降维与变量选择方法研究 被引量:5
8
作者 张波 方国斌 《统计与信息论坛》 CSSCI 2012年第6期21-28,共8页
从介绍高维面板数据的一般特征入手,在总结高维面板数据在实际应用中所表现出的各种不同类型及其研究理论与方法的同时,主要介绍高维面板数据因子模型和混合效应模型;对混合效应模型随机效应和边际效应中的高维协方差矩阵以及经济数据... 从介绍高维面板数据的一般特征入手,在总结高维面板数据在实际应用中所表现出的各种不同类型及其研究理论与方法的同时,主要介绍高维面板数据因子模型和混合效应模型;对混合效应模型随机效应和边际效应中的高维协方差矩阵以及经济数据中出现的多指标大维数据的研究进展进行述评;针对高维面板数据未来的发展方向、理论与应用中尚待解决的一些关键问题进行分析与展望。 展开更多
关键词 高维 面板数据 降维 变量选择
在线阅读 下载PDF
基于可分性判据排序的RBF神经网络属性选择方法 被引量:2
9
作者 文专 王正欧 《计算机工程》 CAS CSCD 北大核心 2004年第23期40-42,共3页
提出一种基于数据属性重要性排序的神经网络属性选择方法。该方法只需对部分属性进行训练,即可进行降维。它克服了现有的神经网络降维方法必须对全部属性进行训练的弊端,大大提高了属性选择的效率。该方法先用本文提出的一种简单的可分... 提出一种基于数据属性重要性排序的神经网络属性选择方法。该方法只需对部分属性进行训练,即可进行降维。它克服了现有的神经网络降维方法必须对全部属性进行训练的弊端,大大提高了属性选择的效率。该方法先用本文提出的一种简单的可分性判据方法对数据属性进行重要性排序,然后按重要次序用RBF神经网络进行属性选择。仿真实例表明,该方法具有良好的效果。 展开更多
关键词 属性选择 可分性判据 RBF神经网络 降维 排序 属性重要性 数据 方法 训练 克服
在线阅读 下载PDF
数据维数消减方法研究 被引量:2
10
作者 吴新玲 《计算机工程与设计》 CSCD 北大核心 2006年第16期3000-3002,共3页
对高维数据集合的维数消减方法及其应用进行了分类研究。将数据维数消减方法主要分为两类:子集选择法和数据变换法。基于统计数学和现有的数据挖掘模型,给出了这两类中的一些典型的维数消减方法,并对这些方法的主要特性和有效应用进行... 对高维数据集合的维数消减方法及其应用进行了分类研究。将数据维数消减方法主要分为两类:子集选择法和数据变换法。基于统计数学和现有的数据挖掘模型,给出了这两类中的一些典型的维数消减方法,并对这些方法的主要特性和有效应用进行了分析、探讨,给出了一些可行的方法实现策略。 展开更多
关键词 数据挖掘 维数消减 子集选择 数据变换 数据分析
在线阅读 下载PDF
基于变量选择深度信念神经网络的风速预测 被引量:6
11
作者 李大中 李昉 张克延 《华北电力大学学报(自然科学版)》 CAS 北大核心 2021年第1期62-68,共7页
风速波动具有随机性和不确定性,导致风速预测的准确度不高。准确的风速预测对于优化风电运行策略和提高发电效率具有重大意义。利用最大信息系数(Maximal Information Coefficient,MIC)对风机SCADA数据进行变量相关性分析,并以MIC值大... 风速波动具有随机性和不确定性,导致风速预测的准确度不高。准确的风速预测对于优化风电运行策略和提高发电效率具有重大意义。利用最大信息系数(Maximal Information Coefficient,MIC)对风机SCADA数据进行变量相关性分析,并以MIC值大小对原始变量排序,将包含7项变量的子集作为深度信念网络(Deep Belief Network,DBN)输入,得到MIC-DBN风速预测模型。基于风场实际数据将MIC-DBN模型与BP神经网络模型和GA-BP模型进行测试对比,实验结果表明,MIC-DBN风速预测模型的预测精度和泛化性能具有良好的效果。 展开更多
关键词 风场大数据 变量选择 深度信念网络 受限玻尔兹曼机 最大信息系数
在线阅读 下载PDF
基于互信息的变量选择方法 被引量:2
12
作者 周生彬 黄叶金 《统计与决策》 CSSCI 北大核心 2020年第1期20-23,共4页
文章基于解释变量与被解释变量之间的互信息提出一种新的变量选择方法:MI-SIS。该方法可以处理解释变量数目p远大于观测样本量n的超高维问题,即p=O(exp(nε))ε>0。另外,该方法是一种不依赖于模型假设的变量选择方法。数值模拟和... 文章基于解释变量与被解释变量之间的互信息提出一种新的变量选择方法:MI-SIS。该方法可以处理解释变量数目p远大于观测样本量n的超高维问题,即p=O(exp(nε))ε>0。另外,该方法是一种不依赖于模型假设的变量选择方法。数值模拟和实证研究表明,MI-SIS方法在小样本情形下能够有效地发现微弱信号。 展开更多
关键词 变量选择 互信息 非参数密度估计 超高维数据分析
在线阅读 下载PDF
大规模多视图数据的自降维K-means算法 被引量:1
13
作者 曹卫东 蔡浩天 《计算机应用研究》 CSCD 北大核心 2020年第10期2937-2940,2975,共5页
为了提升传统多视图K-means算法在高维数据中的聚类性能,提出了一种鲁棒性大规模多视图数据的自降维K-means算法RMSKMC(robust multi-view subKmeans clustering)。通过寻找单个视图上的最优子空间实现高维数据的自降维,利用非负矩阵分... 为了提升传统多视图K-means算法在高维数据中的聚类性能,提出了一种鲁棒性大规模多视图数据的自降维K-means算法RMSKMC(robust multi-view subKmeans clustering)。通过寻找单个视图上的最优子空间实现高维数据的自降维,利用非负矩阵分解(NMF)对损失函数进行重构,使不同视图共享相同的聚类指示矩阵从而实现多视图信息互补,完成大规模多视图数据的聚类。实验结果表明,在大规模多视图数据集上,该算法比其他多视图聚类算法资源消耗更小,并且能够进行更为准确的聚类。 展开更多
关键词 大规模数据 多视图 自降维 K-MEANS 信息互补
在线阅读 下载PDF
超高维数据特征筛选方法综述 被引量:12
14
作者 牛勇 李华鹏 +3 位作者 刘阳惠 熊世峰 於州 张日权 《应用概率统计》 CSCD 北大核心 2021年第1期69-110,共42页
随着数据收集和存储能力的大幅提高,超高维数据[9],即数据维数伴随着样本呈指数增长,频繁出现在许多科学邻域.此时,惩罚类变量选择方法普遍遭遇三个方面的挑战:计算的复杂性,统计的准确性以及算法的稳定性.Fan和Lv[9]首先提出超高维特... 随着数据收集和存储能力的大幅提高,超高维数据[9],即数据维数伴随着样本呈指数增长,频繁出现在许多科学邻域.此时,惩罚类变量选择方法普遍遭遇三个方面的挑战:计算的复杂性,统计的准确性以及算法的稳定性.Fan和Lv[9]首先提出超高维特征筛选的方法,并在近十多年取得大量研究成果,成为当今统计最热点的研究邻域.本文主要从带模型假设,包含参数、非参数半参数模型假定的筛选方法、无模型假设的筛选以及特殊数据的筛选方法四个角度来介绍超高维筛选相关工作,并简要探讨目前超高维筛选方法存在的问题以及未来可能的研究方向. 展开更多
关键词 超高维 特征筛选 可加模型 非参数独立筛选 确保筛选性质 线性模型 变量选择 组变量选择 充分降维 纵向数据 稀疏性
在线阅读 下载PDF
基于稀疏正则化的高维数据可视化分析技术 被引量:4
15
作者 陈海辉 周向东 施伯乐 《计算机应用与软件》 2017年第6期22-26,119,共6页
高维数据可视化分析是数据分析与可视化领域的研究热点,传统的降维方法得到的低维空间往往难以解释,不利于人们对高维数据的可视化分析与探索。提出一种新的可视化解释器(Explainer)方法,将L1稀疏正则化特征选取引入到高维数据的可视化... 高维数据可视化分析是数据分析与可视化领域的研究热点,传统的降维方法得到的低维空间往往难以解释,不利于人们对高维数据的可视化分析与探索。提出一种新的可视化解释器(Explainer)方法,将L1稀疏正则化特征选取引入到高维数据的可视化处理过程中,建立起高层语义标签与少量的关键特征之间的联系。通过可视化设计与实验验证了该方法可以有效改善高维数据的可视化分析性能。 展开更多
关键词 高维数据 特征选取 稀疏学习 可视化分析 降维 投影
在线阅读 下载PDF
大规模数据下基于充分降维的Leverage重要性抽样方法 被引量:6
16
作者 秦磊 王奕丹 苏治 《统计研究》 CSSCI 北大核心 2020年第3期114-128,共15页
随着信息技术的飞速发展,大规模数据在短时间内搜集并储存下来,为分析决策提供了巨大的信息量,也给统计建模带来了一定难度。对于样本容量大、变量个数少的数据,Leverage重要性抽样是一个简便可行的方法。本文发现,该方法中度量样本重... 随着信息技术的飞速发展,大规模数据在短时间内搜集并储存下来,为分析决策提供了巨大的信息量,也给统计建模带来了一定难度。对于样本容量大、变量个数少的数据,Leverage重要性抽样是一个简便可行的方法。本文发现,该方法中度量样本重要性的Leverage分数与因变量无关,而且在维度较大的情形下对样本没有区分程度,使得估计结果较差。为了同时考虑因变量和维度的影响,本文提出了基于充分降维的Leverage重要性抽样方法。该方法以不损失信息为前提,在充分降维的空间内重新计算Leverage分数,使得抽样更具有代表性。模拟数据分析显示,在样本容量较大的复杂数据中,相比于原始的Leverage重要性抽样方法,本文提出的方法可以降低估计的均方误差。三个实际数据也证实了该方法的可行性和有效性。 展开更多
关键词 大规模数据 Leverage分数 重要性抽样 充分降维
在线阅读 下载PDF
高维支持向量机的一些新发展 被引量:1
17
作者 史宏炜 饶昊宸 郭旭 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期319-327,共9页
对高维支持向量机(SVM)的一些新发展如非凸惩罚SVM,L_(1)范数SVM的误差界以及SVM在充分性降维中的应用进行了介绍;通过数值模拟和实例分析,展示了这些新方法在有限样本时的表现;讨论了一些可能的方向和问题.
关键词 二元响应变量 支持向量机 惩罚估计 误差界 变量选择 充分性降维
在线阅读 下载PDF
大样本线性回归模型的子抽样及变量选择 被引量:5
18
作者 徐礼文 廖丹 《统计与决策》 CSSCI 北大核心 2022年第2期5-9,共5页
文章考虑了大样本下线性回归中同时进行快速估计和变量选择的问题,即针对一个存在稀疏解的大样本线性模型,根据重要性抽样分布从全数据集抽取少量子样本,对该子样本进行自适应Lasso估计。通过随机模拟研究,将该算法分别应用在几种不同... 文章考虑了大样本下线性回归中同时进行快速估计和变量选择的问题,即针对一个存在稀疏解的大样本线性模型,根据重要性抽样分布从全数据集抽取少量子样本,对该子样本进行自适应Lasso估计。通过随机模拟研究,将该算法分别应用在几种不同的数据集中,并从模型预测精度和可解释性两个方面比较了四种子抽样方法在该算法下的表现。模拟结果表明,所提出的算法具有良好表现,在计算开销上也具有一定优势。 展开更多
关键词 大样本 数据降维 子抽样算法 变量选择
在线阅读 下载PDF
主变量筛选法在武器型号费用数据处理中的应用
19
作者 侯亚利 王威 陈永革 《弹箭与制导学报》 CSCD 北大核心 2007年第1期220-222,共3页
文中利用矩阵的扫描运算,提出用主变量筛选法来对武器数据分析中出现的高维随机向量进行降维处理,并给出了一个算例。该方法是不同于主成分分析法的一种新的降维方法,它能有效地减小多重共线性问题带来的影响,尤其在处理数据多重相关性... 文中利用矩阵的扫描运算,提出用主变量筛选法来对武器数据分析中出现的高维随机向量进行降维处理,并给出了一个算例。该方法是不同于主成分分析法的一种新的降维方法,它能有效地减小多重共线性问题带来的影响,尤其在处理数据多重相关性突出的武器费用数据时,该方法有着良好的效果,最后,作者用一个实用算例证明了其有效性和可行性。 展开更多
关键词 主变量筛选法 多重相关性 降维 贯用数据
在线阅读 下载PDF
基于non-local先验的贝叶斯变量选择方法及其在高维数据分析中的应用
20
作者 马金沙 董晓强 +4 位作者 高倩 陶然 许树红 李艳艳 王彤 《中国卫生统计》 CSCD 北大核心 2020年第3期372-377,383,共7页
目的对高维数据进行变量筛选并构建预测模型是组学数据分析的研究热点之一。本研究旨在为结局为二分类变量的高维组学数据筛选自变量并构建预测结局的稀疏统计模型。方法本研究通过模拟研究和实例分析阐释基于non-local先验的贝叶斯变... 目的对高维数据进行变量筛选并构建预测模型是组学数据分析的研究热点之一。本研究旨在为结局为二分类变量的高维组学数据筛选自变量并构建预测结局的稀疏统计模型。方法本研究通过模拟研究和实例分析阐释基于non-local先验的贝叶斯变量选择方法--乘积逆矩先验(product inverse moment,piMOM)相较于惩罚类方法ISIS-光滑平切绝对偏差(iterative sure independence screening-smoothly clipped absolute deviation,ISIS-SCAD)和ISIS-最小最大凹惩罚(iterative sure independence screening-minimax concave penalty,ISIS-MCP)在高维数据中变量筛选及其预测效果的性能优劣。结果模拟研究发现:在高维的情况下,经piMOM、ISIS-SCAD和ISIS-MCP方法筛选所得变量的平均真阳性数和受试者工作特征曲线下面积(AUC,area under curve)基本相等,ISIS-SCAD、ISIS-MCP的平均假阳性数、回归系数均方误差以及预测均方误差明显高于基于non-local先验的贝叶斯变量方法所获得的对应值。piMOM方法分析弥漫大B细胞淋巴瘤实例数据共识别5个有意义的基因,AUC为0.996;ISIS-SCAD识别7个基因,AUC为0.975;ISIS-MCP识别7个基因,AUC为0.968。结论在模型选择相合性和预测准确性方面,piMOM方法与ISIS-SCAD和ISIS-MCP相比,具有优势,在一定意义上可有效控制假阳性率。 展开更多
关键词 高维数据 贝叶斯变量选择方法 non-local先验 乘积逆矩先验 弥漫性大B细胞淋巴瘤
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部