期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于随机抽样和聚类特征的聚类算法 被引量:6
1
作者 周兵 沈钧毅 彭勤科 《西安交通大学学报》 EI CAS CSCD 北大核心 2003年第12期1234-1237,共4页
在分析BIRCH算法不足的基础上,提出了一种基于随机抽样和聚类特征的聚类算法(CLAP).该算法采用随机抽样技术,从数据库中抽取一部分数据进行聚类的预处理过程,这样大大降低了运行时间.CLAP通过设立索引树的叶节点的直径和聚类直径,提高... 在分析BIRCH算法不足的基础上,提出了一种基于随机抽样和聚类特征的聚类算法(CLAP).该算法采用随机抽样技术,从数据库中抽取一部分数据进行聚类的预处理过程,这样大大降低了运行时间.CLAP通过设立索引树的叶节点的直径和聚类直径,提高了聚类的精度,并采用全局搜索和局部搜索相结合的方式,消除了输入顺序对聚类质量的影响.测试结果表明,CLAP算法不仅提高了聚类速度,而且改善了聚类质量. 展开更多
关键词 BIRCH算法 随机抽样
在线阅读 下载PDF
MapReduce框架下基于抽样的分布式K-Means聚类算法 被引量:7
2
作者 杨杰明 吴启龙 +3 位作者 曲朝阳 杨烁 阚中峰 高冶 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2017年第1期109-115,共7页
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行... 提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性. 展开更多
关键词 抽样 MAPREDUCE 分布式计算 K-MEANS算法
在线阅读 下载PDF
一种基于抽样改进加权核K-means的大数据谱聚类算法 被引量:7
3
作者 金海 张劲松 吴睿 《测绘通报》 CSCD 北大核心 2018年第11期78-82,共5页
经典谱聚类将数据聚类转化为加权图划分问题,在分析Normalized Cut目标函数与加权核K-means函数等价基础上,设计了一种基于抽样改进加权核K-means算法的大规模数据谱聚类算法。算法通过Leaders进行初始聚类预处理,以控制后续随机抽样的... 经典谱聚类将数据聚类转化为加权图划分问题,在分析Normalized Cut目标函数与加权核K-means函数等价基础上,设计了一种基于抽样改进加权核K-means算法的大规模数据谱聚类算法。算法通过Leaders进行初始聚类预处理,以控制后续随机抽样的数据规模及对原始数据类别的覆盖,通过抽样子集内加权核K-means迭代优化,避免Laplacian矩阵特征分解的大量资源占用,从而以部分核矩阵的使用避免全部核矩的时间、空间复杂度。试验结果表明,改进算法在保持与经典算法相近聚类精度基础上,大幅提高了聚类效率。 展开更多
关键词 大规模数据集谱 加权核K-means算法 数据抽样 核矩阵
在线阅读 下载PDF
抽样改进加权核大数据谱聚类算法 被引量:4
4
作者 申锐 吴睿 《机械设计与制造》 北大核心 2021年第1期171-174,共4页
经典谱聚类算法将数据聚类转为图划分问题,在分析其Normalized Cut函数与传统加权核k-means等价基础上,设计了一种基于抽样改进加权核k-means算法的大规模数据集谱聚类算法,算法通过加权核k-means迭代优化避免Laplacian矩阵特征分解的... 经典谱聚类算法将数据聚类转为图划分问题,在分析其Normalized Cut函数与传统加权核k-means等价基础上,设计了一种基于抽样改进加权核k-means算法的大规模数据集谱聚类算法,算法通过加权核k-means迭代优化避免Laplacian矩阵特征分解的大量资源占用,通过随机映射得到近似奇异值分解,并由近似奇异向量确定各点数据权重及抽样概率,以此得到快速合理抽样,通过数据抽样并将聚类中心约束到抽样点生成的子空间中,避免全部核矩阵的使用,从而降低经典算法的时间空间复杂度。实验结果表明,改进算法在保持与经典算法相近精度基础上,大幅提高了聚类效率,实验验证了改进算法的有效性。 展开更多
关键词 大数据谱 加权核k-means算法 数据抽样 矩阵特征分解 核矩阵
在线阅读 下载PDF
基于聚类方法的审计分层抽样算法研究 被引量:7
5
作者 夏锋 彭鑫 赵文耘 《计算机应用与软件》 CSCD 北大核心 2008年第1期14-16,共3页
针对审计抽样中最复杂的抽样算法—分层抽样,从数据挖掘中"聚类"的角度出发,较好地运用了聚类思想于审计抽样的分层抽样算法之中,为该算法的实现提供了一种新的解决方案。AICPA39没有为分层抽样提供具体的实现方式,国内的学... 针对审计抽样中最复杂的抽样算法—分层抽样,从数据挖掘中"聚类"的角度出发,较好地运用了聚类思想于审计抽样的分层抽样算法之中,为该算法的实现提供了一种新的解决方案。AICPA39没有为分层抽样提供具体的实现方式,国内的学者曾从统计学角度有过实现,将从计算机科学角度实现方法与统计学实现方法进行分析比较,这是对分层抽样算法实现的有益新探索。 展开更多
关键词 数据挖掘 审计抽样 分层抽样K-means算法
在线阅读 下载PDF
抽样子空间约束改进大数据谱聚类算法
6
作者 聂茹 《电信科学》 2018年第11期41-47,共7页
在分析经典谱聚目标函数与加权核k-means目标函数等价基础上,设计了一种基于抽样子空间约束的改进大规模数据谱聚类算法,算法通过加权核k-means迭代优化避免矩阵特征分解的大量资源被占用,通过数据抽样及聚类中心的子空间约束,避免全部... 在分析经典谱聚目标函数与加权核k-means目标函数等价基础上,设计了一种基于抽样子空间约束的改进大规模数据谱聚类算法,算法通过加权核k-means迭代优化避免矩阵特征分解的大量资源被占用,通过数据抽样及聚类中心的子空间约束,避免全部核矩阵都被使用,从而降低经典算法的时间空间复杂度。理论分析和实验结果表明,改进算法保持与经典算法相近聚类精度,提高了聚类效率,验证了改进算法的有效性。 展开更多
关键词 大规模数据谱 加权核k-means算法 数据抽样 矩阵特征分解 核矩阵
在线阅读 下载PDF
面向大规模数据快速聚类K-means算法的研究 被引量:17
7
作者 郭占元 林涛 《计算机应用与软件》 2017年第5期43-47,53,共6页
为进一步提高K-means算法对大规模数据聚类的效率,结合MapReduce计算模型,提出一种先利用Hash函数进行样本抽取,再利用Pam算法获取初始中心的并行聚类方法。通过Hash函数抽取的样本能充分反映数据的统计特性,使用Pam算法获取初始聚类中... 为进一步提高K-means算法对大规模数据聚类的效率,结合MapReduce计算模型,提出一种先利用Hash函数进行样本抽取,再利用Pam算法获取初始中心的并行聚类方法。通过Hash函数抽取的样本能充分反映数据的统计特性,使用Pam算法获取初始聚类中心,改善了传统聚类算法依赖初始中心的问题。实验结果表明该算法有效提高了聚类质量和执行效率,适用于对大规模数据的聚类分析。 展开更多
关键词 大规模数据 算法 MAPREDUCE Hash样本抽样 PAM算法
在线阅读 下载PDF
MapReduce下融合PAM算法与仔细播种的多样本归并聚类
8
作者 赵宝文 徐华 《小型微型计算机系统》 CSCD 北大核心 2017年第10期2281-2285,共5页
传统PAM(Partitioning Around Medoids)算法时间复杂度较高,处理大数据集时效率低下.近年来,越来越多研究者使用MapReduce模型来使聚类算法获得更高的性能,然而MapReduce模型在算法迭代过程中需要多次重启任务、从文件系统读取数据和数... 传统PAM(Partitioning Around Medoids)算法时间复杂度较高,处理大数据集时效率低下.近年来,越来越多研究者使用MapReduce模型来使聚类算法获得更高的性能,然而MapReduce模型在算法迭代过程中需要多次重启任务、从文件系统读取数据和数据洗牌,影响数据处理效率.本文提出两种基于MapReduce的融合PAM算法与仔细播种的聚类处理模型,在保持PAM算法聚类有效性的同时,在算法性能上获得显著提高.性能试验和聚类有效性实验的结果表明本文提出的方法达到了预期的效果且具有很好的可扩展性. 展开更多
关键词 PAM算法 MAPREDUCE 概率抽样 性能 有效性
在线阅读 下载PDF
利用快速无偏分层图抽样算法的MapReduce负载平衡方法 被引量:2
9
作者 杜鹃 张卓 曹建春 《计算机应用与软件》 北大核心 2021年第11期288-294,313,共8页
提出一种基于快速无偏分层图抽样的MapReduce负载平衡方法。将聚类算法融合到MapReduce连接操作中,提出MapReduce并行聚类连接算法的实现方法;根据聚类结果动态调整抽样率的无偏分层图抽样算法,从而实现连接操作目标数据的准确、平衡抽... 提出一种基于快速无偏分层图抽样的MapReduce负载平衡方法。将聚类算法融合到MapReduce连接操作中,提出MapReduce并行聚类连接算法的实现方法;根据聚类结果动态调整抽样率的无偏分层图抽样算法,从而实现连接操作目标数据的准确、平衡抽样。通过合成数据集和真实数据集下的数据处理实验,与Hash连接算法及基于NS抽样的聚类算法进行对比,验证了所提出的算法方案在不同数据倾斜程度下都具有良好的负载平衡性能,其运行效率也没有因为新采样算法的采用而受到影响。 展开更多
关键词 大数据 数据倾斜 负载平衡 无偏分层图抽样 MapReduce平台 Hash连接算法 NS抽样
在线阅读 下载PDF
基于Dijkstra算法的社交网络抽样生成 被引量:3
10
作者 杜景林 侯大俊 《计算机应用》 CSCD 北大核心 2016年第6期1506-1509,1514,共5页
针对社交网络中随机抽样算法抽样结果不能很好地代表原始网络的问题,设计了一种基于Dijkstra最短路径的抽样算法。首先,利用Dijkstra算法多次抽取社交网络中节点之间的最短路径;然后,对抽取到的路径中边出现的频率进行排序,选择较高频... 针对社交网络中随机抽样算法抽样结果不能很好地代表原始网络的问题,设计了一种基于Dijkstra最短路径的抽样算法。首先,利用Dijkstra算法多次抽取社交网络中节点之间的最短路径;然后,对抽取到的路径中边出现的频率进行排序,选择较高频率的边组成抽样的子图。该算法解决了随机抽样算法存在的一些问题,实现了较好的生成抽取社交网络的功能。仿真实验结果表明,与随机抽样方法相比,所提抽样算法能减少抽样误差,更好地反映原始网络。 展开更多
关键词 社交网络 网络抽样 DIJKSTRA算法 系数
在线阅读 下载PDF
基于区域生长顺序聚类-RANSAC的水稻苗带中心线检测 被引量:11
11
作者 傅灯斌 江茜 +3 位作者 齐龙 邢航 陈芷莹 杨秀丽 《农业工程学报》 EI CAS CSCD 北大核心 2023年第7期47-57,共11页
为提高水稻苗带中心线检测的适应性和实时性,满足巡田机器人导航的低成本、轻量级计算、高实时性需求,针对水稻苗带中心线检测结果容易受到光照变化和机器震动等原因产生图像噪声影响的问题,该研究以返青期和分蘖初期水稻秧苗为研究对象... 为提高水稻苗带中心线检测的适应性和实时性,满足巡田机器人导航的低成本、轻量级计算、高实时性需求,针对水稻苗带中心线检测结果容易受到光照变化和机器震动等原因产生图像噪声影响的问题,该研究以返青期和分蘖初期水稻秧苗为研究对象,提出基于区域生长顺序聚类-随机抽样一致性算法(random sample consensus,RANSAC)的水稻苗带中心线检测方法。首先,对采集的水稻秧苗图像运用归一化超绿特征法(excess green,ExG)和最大类间方差法(Otsu)分割水田背景和秧苗区域,应用先腐蚀后开运算的形态学方法去除秧苗图像噪声点;然后,采用基于水平带的秧苗轮廓质心检测方法提取秧苗特征点,利用区域生长顺序聚类方法将同一秧苗行的特征点聚成一类;最后,通过RANSAC算法拟合苗带中心线,从而得到巡田机器人视觉导航基准线。试验结果表明:该方法对返青期和分蘖初期水稻苗带中心线检测率均在97%以上,比已有YOLOv3算法提高6.12个百分点,比基于区域生长均值漂移聚类算法降低2.41个百分点;平均误差角度为2.34°,比已有YOLOv3算法高1.37°,比基于区域生长均值漂移聚类算法低0.12°,平均每帧图像检测时间为15.53 ms,比已有YOLOv3算法缩短81.19%,比基于区域生长均值漂移聚类算法缩短82.74%,本文方法在保证检测精度的基础上,大幅提升了检测速度,具有良好的适应性和实时性。研究结果可为巡田机器人视觉导航提供参考。 展开更多
关键词 水稻 视觉导航 苗带中心线 区域生长顺序 随机抽样一致性算法
在线阅读 下载PDF
编制价格指数的爬虫数据抽样方法研究
12
作者 雷兵 梁凯凯 刘维 《统计与决策》 CSSCI 北大核心 2024年第12期24-28,共5页
文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算... 文章针对全量爬虫数据编制价格指数成本高的问题,提出了一种抽样方法。该方法采用“大数据—小数据”思想,在基期通过网络爬虫技术全量抓取电商平台的商品交易数据,形成抽样框;在连续性调查中采用抽样技术,根据分层抽样思想,运用聚类算法及其轮廓系数实现总体数据分层,并通过不等概率随机抽样获取各层代表性样本;考虑到连续性调查中入选样本存在无回答现象,提出正式和备选样本思路,针对每个正式样本,采用最近邻匹配法挑选若干个备选样本,当正式样本无回答时,以备选样本作为替补来完成价格指数编制。以天猫商城粮油品类为例进行验证,结果表明:在抓取的数据中,基期全量爬虫数据有18351条,第2—8期连续性调查的平均抽样比为10.18%,抽样的平均相对误差为0.59%,说明该方法是可行的。 展开更多
关键词 价格指数 爬虫数据 分层抽样 算法 样本匹配
在线阅读 下载PDF
改进欠抽样方法及其在非平衡数据集分类中的应用 被引量:7
13
作者 牛壮 李凤莲 +2 位作者 张雪英 樊宇宙 魏鑫 《计算机工程》 CAS CSCD 北大核心 2019年第6期218-224,共7页
欠抽样方法在非平衡数据集分类时,未充分考虑数据分布变化对分类结果造成的影响。为此,提出一种基于聚类融合去冗余的改进欠抽样方法。采用聚类算法得到多数类样本高密度分布区域的聚类中心,将多数类样本划分为不同子集,通过计算各子集... 欠抽样方法在非平衡数据集分类时,未充分考虑数据分布变化对分类结果造成的影响。为此,提出一种基于聚类融合去冗余的改进欠抽样方法。采用聚类算法得到多数类样本高密度分布区域的聚类中心,将多数类样本划分为不同子集,通过计算各子集的相似度冗余系数对多数类样本进行去冗余删除,以达到欠抽样的目的。对15个不同平衡率的数据集欠抽样后,利用代价敏感混合属性多决策树模型进行分类。实验结果表明,在不降低非平衡数据集分类准确率的前提下,该方法能够提高少数类样本的正类率及预测模型的G-mean值。 展开更多
关键词 非平衡数据集 算法 抽样 去冗余 多决策树预测模型
在线阅读 下载PDF
融合过抽样和欠抽样的不平衡数据重抽样方法 被引量:15
14
作者 吴磊 房斌 +2 位作者 刁丽萍 陈静 谢娜娜 《计算机工程与应用》 CSCD 2013年第21期172-176,185,共6页
在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多... 在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多,只探讨利用重抽样方法对不平衡数据进行预处理来提高分类效果的方法。数据抽样算法有很多,但可以归为两大类:过抽样和欠抽样。针对二分类问题提出了四种融合过抽样和欠抽样算法的重抽样方法:BSM+Tomek、BSM+ENN、CBOS+Tomek和CBOS+ENN,并且与另外十种经典的重抽样算法做了大量的对比实验,实验证明提出的四种预处理算法在多种评价指标下提高了不平衡数据的分类效果。 展开更多
关键词 不平衡数据 抽样 基于聚的过抽样算法(cbos) 基于边界值的虚拟少数向上采样算法(BSM) 可选择最 近邻算法(ENN) Tomek LINKS 预处理
在线阅读 下载PDF
基于3D激光雷达的鸡舍通道中心线检测方法 被引量:2
15
作者 韩雨晓 李帅 +3 位作者 王宁 安娅军 张漫 李寒 《农业工程学报》 EI CAS CSCD 北大核心 2024年第9期173-181,共9页
针对笼养鸡舍环境下光照强度弱、作业通道内狭小导致机器人巡检时通道中心线检测困难的问题,该研究利用3D激光雷达对鸡舍通道中心线进行获取。首先通过机器人搭载的3D激光雷达对鸡舍作业通道信息进行采集,利用直通滤波、地面点滤波、体... 针对笼养鸡舍环境下光照强度弱、作业通道内狭小导致机器人巡检时通道中心线检测困难的问题,该研究利用3D激光雷达对鸡舍通道中心线进行获取。首先通过机器人搭载的3D激光雷达对鸡舍作业通道信息进行采集,利用直通滤波、地面点滤波、体素滤波、统计滤波和平面投影对获取的3D激光雷达点云数据进行预处理,获取XOY平面上的点云数据。通过改变K-means聚类初始点选择方式和聚类函数对预处理后的点云数据进行数据分类。利用改进RANSAC算法对分类后的数据进行处理,提取通道中心线。试验结果表明该研究提出的改进K-means聚类算法平均耗时6.98 ms,相较于传统的K-means聚类算法平均耗时减少了29.40 ms,准确率提高了82.41%。该研究提出的改进RANSAC算法中心线提取准确率为93.66%、平均误差角为0.89°、平均耗时为3.97 ms,比LSM算法得到的平均绝对误差角高0.14°,平均耗时减少6.15 ms。表明该研究提出的鸡舍通道中心线检测方法基本满足笼养鸡舍环境实时自主导航的需求,为巡检机器人在鸡舍作业通道内进行激光雷达导航提供了技术支撑。 展开更多
关键词 导航 机器人 激光雷达 鸡舍 K-MEANS 随机抽样一致性算法 中心线拟合
在线阅读 下载PDF
考虑负荷特性的光伏消纳能力的模拟与评估 被引量:5
16
作者 孙万通 陈众 +2 位作者 陈慧霞 徐翼 郎坤 《太阳能学报》 EI CAS CSCD 北大核心 2024年第4期475-481,共7页
针对目前在配电网光伏消纳能力评估过程中不能全面考虑电力系统中负荷特性多样化对光伏消纳能力影响的不足,提出一种考虑负荷运行中的实际情况,光伏消纳模拟与概率评估的方法。首先采用支持向量机-随机森林算法对负荷数据进行清洗,再采... 针对目前在配电网光伏消纳能力评估过程中不能全面考虑电力系统中负荷特性多样化对光伏消纳能力影响的不足,提出一种考虑负荷运行中的实际情况,光伏消纳模拟与概率评估的方法。首先采用支持向量机-随机森林算法对负荷数据进行清洗,再采用改进谱聚类算法对不同类型的负荷特性进行聚类分析,然后基于场景分析法选取不同负荷的类型曲线作为节点处负荷数据,最后基于蒙特卡洛模拟法和均匀抽样法进行光伏消纳方案随机模拟与消纳能力近似评估。基于IEEE 33节点系统算例分析,对有无考虑负荷特性的抽样结果进行对比,有效验证了所述方法的适用性。 展开更多
关键词 配电网 光伏 负荷 改进谱算法 蒙特卡洛模拟法 均匀抽样
在线阅读 下载PDF
基于车载16线激光雷达的障碍物检测方法 被引量:10
17
作者 孔德明 段呈新 +1 位作者 巴特·古森斯 王书涛 《计量学报》 CSCD 北大核心 2021年第7期846-852,共7页
针对目前车载16线激光雷达点云数据中障碍物检测算法准确率不高的问题,提出了一种基于自适应网格聚类的障碍物检测方法。首先,结合八叉树与随机抽样一致性算法(RANSAC)去除地面点;其次,投影点云至二维网格,依据各网格高程信息快速提取... 针对目前车载16线激光雷达点云数据中障碍物检测算法准确率不高的问题,提出了一种基于自适应网格聚类的障碍物检测方法。首先,结合八叉树与随机抽样一致性算法(RANSAC)去除地面点;其次,投影点云至二维网格,依据各网格高程信息快速提取高结构物;然后,建立两级网格模型,按照粗网格聚类结果的分布信息自适应地确定子网格分辨率,对可能包含多目标的障碍物在子网格层进行准确检测;最后,结合相邻时刻障碍物的状态信息修正检测结果。在16线激光雷达城市道路环境测试集下的实验结果表明:该算法可准确检测行驶区域内障碍物目标,优化后的聚类算法较好地降低了欠分割与过分割错误率,检测准确率达91%。 展开更多
关键词 计量学 障碍物检测 网格 自适应 八叉树算法 随机抽样一致性算法
在线阅读 下载PDF
基于场景分析的电力系统日前调度及其快速求解方法 被引量:20
18
作者 要金铭 赵书强 +1 位作者 韦子瑜 张荟 《电力自动化设备》 EI CSCD 北大核心 2022年第9期102-110,共9页
在含风光电力系统规模逐渐增大的背景下,提出一种基于场景分析的电力系统日前调度快速求解方法。考虑到不同时刻风光出力均具有显著相关性,基于多元正态分布和蒙特卡罗采样生成大量具有时间相关性的原始场景。利用改进的k-means聚类算... 在含风光电力系统规模逐渐增大的背景下,提出一种基于场景分析的电力系统日前调度快速求解方法。考虑到不同时刻风光出力均具有显著相关性,基于多元正态分布和蒙特卡罗采样生成大量具有时间相关性的原始场景。利用改进的k-means聚类算法对原始场景进行预分类,并采用基于Kantorovich概率距离的同步回代缩减算法对处理后的场景进行缩减,缩短场景分析的计算时间。建立基于场景分析的电力系统日前优化调度模型。为提高模型求解效率,引入包含风光预测误差向量信息的边界场景,在调度模型中考虑上下边界场景的备用容量约束,并建立考虑边界场景备用容量约束的优化调度模型。以某省级电网实测数据进行仿真分析,验证了所提模型及方法的有效性。 展开更多
关键词 多元正态分布 蒙特卡罗抽样 K-MEANS 同步回代缩减算法 边界场景 备用容量
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部