期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
一种不确定数据流聚类算法 被引量:34
1
作者 张晨 金澈清 周傲英 《软件学报》 EI CSCD 北大核心 2010年第9期2173-2182,共10页
提出了EMicro算法,以解决不确定数据流上的聚类问题.与现有技术大多仅考虑元组间的距离不同,EMicro算法综合考虑了元组之间的距离与元组自身不确定性这两个因素,同时定义新标准来描述聚类结果质量.还提出了离群点处理机制,系统同时维护... 提出了EMicro算法,以解决不确定数据流上的聚类问题.与现有技术大多仅考虑元组间的距离不同,EMicro算法综合考虑了元组之间的距离与元组自身不确定性这两个因素,同时定义新标准来描述聚类结果质量.还提出了离群点处理机制,系统同时维护两个缓冲区,分别存放正常的微簇与潜在的离群点微簇,以期得到理想的性能.实验结果表明,与现有工作相比,EMicro的效率更高,且效果良好. 展开更多
关键词 不确定数据流 聚类 离群点
在线阅读 下载PDF
大数据环境下的不确定数据流在线分类算法 被引量:9
2
作者 吕艳霞 王翠荣 +1 位作者 王聪 于长永 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第9期1245-1249,共5页
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法... 在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率. 展开更多
关键词 不确定数据流 加权贝叶斯 VFDT 分类算法 数据
在线阅读 下载PDF
一种基于高斯混合模型的不确定数据流聚类方法 被引量:6
3
作者 曹振丽 孙瑞志 李勐 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期102-109,共8页
传感器的广泛应用产生了大量的不确定数据流,在聚类应用中,当输入数据为连续型随机变量时,现有基于离散型随机变量的聚类方法无法满足数据流应用在效率和精度上的要求.使用高斯混合模型作为不确定数据的基本表示形式,仅需要保存不同组... 传感器的广泛应用产生了大量的不确定数据流,在聚类应用中,当输入数据为连续型随机变量时,现有基于离散型随机变量的聚类方法无法满足数据流应用在效率和精度上的要求.使用高斯混合模型作为不确定数据的基本表示形式,仅需要保存不同组件的描述信息即可,可以更好地利用存储空间,完成对真实情况的逼近,在此基础上提出了一种可以发现时间维度上的不确定数据流聚类方法cumicro,该算法将时间直接作为数据属性,可直接查询某个时间维度的聚簇,避免了传统基于划分的聚类中较难发现非球状聚簇的问题.通过实验与经典算法umicro进行比较,证明了本文算法的有效性,并分析了不同K值、τ值下的聚类结果.最后得出结论,原始数据较密集时,相较原有基于离散模型的聚类,该算法具有准确度上的优势. 展开更多
关键词 高斯混合模型 不确定数据流 聚类 数据 概要结构
在线阅读 下载PDF
衰减窗口中的不确定数据流聚类算法 被引量:7
4
作者 屠莉 陈崚 《计算机应用研究》 CSCD 北大核心 2021年第9期2673-2677,2682,共6页
针对现实不确定数据流具备分布非凸性和包含大量噪声等特点,提出不确定数据流聚类算法Clu_Ustream(clustering on uncertain stream)来解决对近期数据进行实时高效聚类演化问题。首先,在线部分利用子窗口采样机制采集滑动窗口中的不确... 针对现实不确定数据流具备分布非凸性和包含大量噪声等特点,提出不确定数据流聚类算法Clu_Ustream(clustering on uncertain stream)来解决对近期数据进行实时高效聚类演化问题。首先,在线部分利用子窗口采样机制采集滑动窗口中的不确定流数据,采用双层概要统计结构链表存储概率密度网格的统计信息;然后,离线聚类过程中通过衰减窗口机制弱化老旧数据的影响,并定期对窗口中的过期子窗口进行清理;同时采用动态异常网格删除机制有效过滤离群点,从而降低算法的时空复杂度。在模拟数据集和网络入侵真实数据集上的仿真结果表明,Clu_Ustream算法与其他同类算法相比具有较高的聚类质量和效率。 展开更多
关键词 不确定数据流 聚类 衰减窗口 采样机制 密度网格 网络入侵
在线阅读 下载PDF
基于引力相似度和相对密度的不确定数据流聚类 被引量:5
5
作者 郑祺 黄德才 《上海交通大学学报》 EI CAS CSCD 北大核心 2016年第6期873-878,共6页
针对不确定数据流聚类问题,提出一种基于引力相似度和相对密度的聚类算法.采用在线/离线两阶段处理框架,综合考虑元组之间的相似度与元组自身的不确定性,利用引力相似度为每个不断到达的数据元组寻找可能归属的微簇,以新的离群点处理和... 针对不确定数据流聚类问题,提出一种基于引力相似度和相对密度的聚类算法.采用在线/离线两阶段处理框架,综合考虑元组之间的相似度与元组自身的不确定性,利用引力相似度为每个不断到达的数据元组寻找可能归属的微簇,以新的离群点处理和在线维护机制来适应数据流的演化情况,并在离线层使用相对密度算法进行聚类,不需要预先指定聚类数且可处理任意形状的微簇.实验结果表明,与现有的聚类方法相比,所提出的算法具有更高的聚类质量和准确度. 展开更多
关键词 不确定数据流 聚类 引力 相似度 相对密度 离群点
在线阅读 下载PDF
一种面向不确定数据流的聚类算法 被引量:2
6
作者 韩东红 王坤 +1 位作者 邵崇雷 马畅 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第12期1677-1682,共6页
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确... 作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性. 展开更多
关键词 不确定数据流 聚类 数据 数据挖掘 最小边界矩形
在线阅读 下载PDF
基于网格密度和引力的不确定数据流聚类算法 被引量:4
7
作者 邢长征 温培 《计算机应用研究》 CSCD 北大核心 2015年第1期98-101,共4页
为改进EMicro算法存在的不足提出了GDF-CUStreams算法。该算法采用网格特征向量存储数据的分布特征,通过更新网格特征向量合并成簇对不确定数据流聚类,对新数据点的到来采用增量聚类。通过网格密度和网格质心之间的距离判定网格是否是... 为改进EMicro算法存在的不足提出了GDF-CUStreams算法。该算法采用网格特征向量存储数据的分布特征,通过更新网格特征向量合并成簇对不确定数据流聚类,对新数据点的到来采用增量聚类。通过网格密度和网格质心之间的距离判定网格是否是零星网格,利用网格引力对簇边界进行优化,检测和删除零星网格,使簇边缘更加平滑,提高聚类精度。其中网格密度和网格质心都采用增量更新。实验结果表明,与EMicro算法相比,GDF-CUStreams效率更高且效果良好。 展开更多
关键词 不确定数据流 网格特征向量 网格密度 网格引力 零星网格
在线阅读 下载PDF
一种面向不确定数据流的模体发现算法 被引量:3
8
作者 王菊 刘付显 +1 位作者 靳春杰 李祯东 《电子科技大学学报》 EI CAS CSCD 北大核心 2017年第1期81-87,共7页
借鉴生物信息学中序列模式发现思想,提出了基于MEME(multiple expectation-maximization for motif elicitation)的不确定数据流模体发现算法。该算法根据不确定数据流的特点,设计了不确定滑动窗口的简化计算方法,改进了SAX(symbolic ag... 借鉴生物信息学中序列模式发现思想,提出了基于MEME(multiple expectation-maximization for motif elicitation)的不确定数据流模体发现算法。该算法根据不确定数据流的特点,设计了不确定滑动窗口的简化计算方法,改进了SAX(symbolic aggregate approximation)的符号化策略,用防空反导情报传感器网络中的一组不确定数据流验证了其可行性,通过植入不同数目模体的方法测试了其准确性,并在元组存在概率为1的条件下与已有算法进行比较,验证其有效性。 展开更多
关键词 MEME算法 模体发现 SAX 不确定数据流 不确定滑动窗口
在线阅读 下载PDF
基于优化策略的不确定数据流预测方法 被引量:1
9
作者 徐雪松 李玲娟 郭立玮 《计算机工程》 CAS CSCD 北大核心 2011年第21期17-19,22,共4页
为解决不确定数据流的预测问题,根据数据流高速、无限和动态不确定性的特点,在复杂人工智能预测和时间序列预测的基础上,提出一种基于优化策略的预测方法。综合考虑数据流中元组的不确定性与不确定异常性,以降低预测计算代价。同时考虑... 为解决不确定数据流的预测问题,根据数据流高速、无限和动态不确定性的特点,在复杂人工智能预测和时间序列预测的基础上,提出一种基于优化策略的预测方法。综合考虑数据流中元组的不确定性与不确定异常性,以降低预测计算代价。同时考虑不确定的统计特性对卡尔曼滤波预测的影响,对Q和R进行异步优化估计,以形成最佳状态预测。实验结果表明,该方法的预测性能较好。 展开更多
关键词 时间序列 不确定数据流 优化估计 卡尔曼滤波 复杂度
在线阅读 下载PDF
不确定数据流多维建模方法 被引量:1
10
作者 李明 张维明 刘青宝 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第5期174-179,共6页
由于不确定数据流应用的出现,给传统的精确、静态数据环境下的多维建模带来了巨大挑战。针对不确定数据流动态、无限和不确定等特征,提出了一种不确定数据流多维模型。该模型中引入了不确定对象来描述不确定事实元组,并且通过定义时间... 由于不确定数据流应用的出现,给传统的精确、静态数据环境下的多维建模带来了巨大挑战。针对不确定数据流动态、无限和不确定等特征,提出了一种不确定数据流多维模型。该模型中引入了不确定对象来描述不确定事实元组,并且通过定义时间维度的层次时间窗口,很好地反映了数据流的动态性和无限性,最后还对此多维不确定数据流模型的基本代数操作和分析代数操作进行了形式化定义,为不确定数据流多维查询与分析提供了理论依据。 展开更多
关键词 多维模型 不确定数据流 时间维度 连续查询
在线阅读 下载PDF
一种面向多属性不确定数据流的模体发现算法 被引量:1
11
作者 王菊 刘付显 《电子与信息学报》 EI CSCD 北大核心 2017年第1期159-166,共8页
该文针对多属性不确定数据流的频繁模式发现问题,借鉴生物信息学中的模体发现思想,提出了一种基于MEME(Multiple Expectation-maximization for Motif Elicitation)的多属性不确定数据流模体发现算法。该算法根据不确定数据流的特点,设... 该文针对多属性不确定数据流的频繁模式发现问题,借鉴生物信息学中的模体发现思想,提出了一种基于MEME(Multiple Expectation-maximization for Motif Elicitation)的多属性不确定数据流模体发现算法。该算法根据不确定数据流的特点,设计了基于混合型模型的不确定滑动窗口更新计算方法,改进了SAX(Symbolic Aggregate appro Ximation)的符号化策略,提出了不同滑动窗口下多属性模体的相似性分析方法。在实验当中,用防空反导情报传感器网络中的一组不确定数据流验证了其功能,通过植入不同数目的模体测试了其发现准确率,并在元组有效概率设置为1的条件下与已有算法进行了比较,结果表明:该算法可以较准确地发现多属性不确定数据流中的频繁模式。 展开更多
关键词 数据挖掘 模体发现 不确定数据流 MEME(Multiple EXPECTATION-MAXIMIZATION for MOTIF Elicitation) 算法
在线阅读 下载PDF
一种不确定数据流子空间聚类算法 被引量:1
12
作者 胡德敏 余星 《计算机应用研究》 CSCD 北大核心 2014年第9期2606-2608,2612,共4页
针对不确定数据流上的聚类问题提出一种不确定数据流子空间聚类算法UDSSC。该算法使用滑动窗口机制接收新到达的数据,剔除陈旧的数据;还引入子空间簇生成策略和新型离群点机制;系统建立了三个缓冲区分别存储新到来的元组、要进行聚类的... 针对不确定数据流上的聚类问题提出一种不确定数据流子空间聚类算法UDSSC。该算法使用滑动窗口机制接收新到达的数据,剔除陈旧的数据;还引入子空间簇生成策略和新型离群点机制;系统建立了三个缓冲区分别存储新到来的元组、要进行聚类的元组和离群点元组,以此获得高质量的聚类结果。实验表明,UDSSC算法与同类型算法相比,具有更好的聚类效果、更低的时间复杂度和更强的扩展性。 展开更多
关键词 不确定数据流 滑动窗口 聚类 子空间 缓冲区 离群点
在线阅读 下载PDF
一种基于预裁剪的不确定数据流频繁项集挖掘算法 被引量:3
13
作者 马力 《科学技术与工程》 北大核心 2016年第23期229-233,共5页
随着交通、网络流量监控等应用的涌现,不确定数据流频繁项集挖掘成为近年来的研究热点。通常在不确定数据流中,频繁项集所占的比例较小,导致挖掘中无效操作较多。基于这种情况,提出了一种基于预裁剪的不确定数据流频繁项集挖掘算法Prep-... 随着交通、网络流量监控等应用的涌现,不确定数据流频繁项集挖掘成为近年来的研究热点。通常在不确定数据流中,频繁项集所占的比例较小,导致挖掘中无效操作较多。基于这种情况,提出了一种基于预裁剪的不确定数据流频繁项集挖掘算法Prep-UF-Streaming;该算法,不仅能裁剪掉大部分非频繁项集,提高了算法的平均运行时间;而且能够检测到非频繁项集成为频繁项集的可能性,尽量不丢失频繁项集,从而尽可能地提高算法的性能。 展开更多
关键词 不确定数据流 频繁项集 滑动窗口
在线阅读 下载PDF
不确定数据流上的离群点检测处理 被引量:1
14
作者 朱斌 钟毓灵 +1 位作者 王习特 白梅 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第2期134-140,共7页
提出了一种快速不确定数据流上的离群点检测算法.采用分层次划分思想给出了适用于流式数据的索引构建方法,并为索引结构中的叶子结点增加了部分存储信息,使得在数据更新时新流入的数据点可以利用中间结果信息直接完成批量过滤,降低计算... 提出了一种快速不确定数据流上的离群点检测算法.采用分层次划分思想给出了适用于流式数据的索引构建方法,并为索引结构中的叶子结点增加了部分存储信息,使得在数据更新时新流入的数据点可以利用中间结果信息直接完成批量过滤,降低计算成本.通过分析离群概率值求解的递推规律,给出了一种全新的离群概率值求解方案,该方案可以最大可能地避免全近邻集合的迭代计算,减少了大量的非离群点计算代价,从而加快处理速度.实验结果表明,快速不确定数据流上的离群点检测算法能够有效地提高检测效率. 展开更多
关键词 离群点 不确定数据流 滑动窗口 过滤策略 分层次划分
在线阅读 下载PDF
一种存在级不确定数据流聚类算法 被引量:1
15
作者 邢长征 余彬生 《计算机应用与软件》 CSCD 2015年第4期252-255,共4页
针对不确定数据流聚类算法——EMicro在聚类结果的精确性和聚类中数据的概率相似度方面的不足,提出一种新基于存在级的不确定数据流算法——UDs Stream。该算法通过设置概率阈值,将不确定性高的点和不确定性低的点分开处理,提高聚类结... 针对不确定数据流聚类算法——EMicro在聚类结果的精确性和聚类中数据的概率相似度方面的不足,提出一种新基于存在级的不确定数据流算法——UDs Stream。该算法通过设置概率阈值,将不确定性高的点和不确定性低的点分开处理,提高聚类结果的准确性和聚类中数据概率相似度。同时引入窗口和密度的方法,设置动态密度阈值,能够动态掌握数据流的分布特征,使聚类过程有更好的灵活性。实验结果证明,与EMicro相比,UDs Stream算法聚类效果更好。 展开更多
关键词 不确定数据流 聚类 概率相似度 密度 离群点
在线阅读 下载PDF
不确定数据流自适应并行连接算法及应用
16
作者 钱江波 王志杰 +1 位作者 陈华辉 王海斌 《电信科学》 北大核心 2012年第2期86-94,共9页
不确定数据流对处理过程有独特的需求,如存储空间有限、响应时间很短、需要连续处理、数据无限等,这对数据流的处理算法,特别是耗时、耗内存较多的连接操作提出了挑战。针对大规模不确定数据流并行连接所存在的速度较慢和内存消耗大的问... 不确定数据流对处理过程有独特的需求,如存储空间有限、响应时间很短、需要连续处理、数据无限等,这对数据流的处理算法,特别是耗时、耗内存较多的连接操作提出了挑战。针对大规模不确定数据流并行连接所存在的速度较慢和内存消耗大的问题,提出了多核处理器上不确定数据流并行连接和内存溢出时自适应处理的一系列算法,能够高速在线处理并发不确定数据流。在此基础上,针对道路各个卡口监控到的不确定数据流,提出一种实时发现套牌车的方法。实验采用真实数据、均匀数据、高斯数据进行评估,证明算法具有良好的性能,其处理速度比内存数据库Timesten速度提高2~8倍,能够满足实时交通套牌车监控的需求。 展开更多
关键词 不确定数据流 窗口连接 内存溢出 并行计算
在线阅读 下载PDF
隐含概念漂移的不确定数据流集成分类算法 被引量:3
17
作者 张盼盼 尹绍宏 《计算机工程与科学》 CSCD 北大核心 2016年第7期1510-1516,共7页
近年来,数据流分类问题已经逐渐成为数据挖掘领域的一个研究热点,然而传统的数据流分类算法大多只能处理数据项已知并且为精确值的数据流,无法有效地应用于现实应用中普遍存在的不确定数据流。为建立适应数据不确定性的分类模型,提高不... 近年来,数据流分类问题已经逐渐成为数据挖掘领域的一个研究热点,然而传统的数据流分类算法大多只能处理数据项已知并且为精确值的数据流,无法有效地应用于现实应用中普遍存在的不确定数据流。为建立适应数据不确定性的分类模型,提高不确定数据流分类准确率,提出一种针对不确定数据流的集成分类算法,该算法将不确定数据用区间及其概率分布函数表示,用C4.5决策树分类方法和朴素贝叶斯分类方法训练基分类器,在合理处理数据流中不确定性的同时,还能有效解决数据流中隐含的概念漂移问题。实验结果表明,所提算法在处理不确定数据流的分类时具有较好的鲁棒性,并且具有较高的分类准确率。 展开更多
关键词 不确定数据流 概念漂移 集成分类 数据挖掘
在线阅读 下载PDF
基于时间衰减模型的不确定数据流聚类算法 被引量:1
18
作者 屠莉 吴懋刚 杨立志 《小型微型计算机系统》 CSCD 北大核心 2014年第9期2039-2043,共5页
提出一种不确定数据流上聚类算法(FDCUS),采用格结构和基于时间衰减模型的聚类机制来解决挖掘任意形状聚类问题.算法引入时间衰减因子,并考虑元组的存在概率,计算格的特征向量来统计流数据的概要信息.在聚类过程中,通过计算概率中心距... 提出一种不确定数据流上聚类算法(FDCUS),采用格结构和基于时间衰减模型的聚类机制来解决挖掘任意形状聚类问题.算法引入时间衰减因子,并考虑元组的存在概率,计算格的特征向量来统计流数据的概要信息.在聚类过程中,通过计算概率中心距离来衡量两个相邻强格或中间格是否"足够靠近",从而选择合并,可以进一步提高聚类质量.此外,算法引入的动态孤立格的删除机制可以有效的对孤立格中的异常点进行定期删除,大大降低了算法的时空复杂度.在模拟数据集和真实数据集上的实验结果表明,FDCUS算法与其他算法相比可以取得较高的聚类质量和时间效率,并有较好的可扩展性. 展开更多
关键词 不确定数据流 时间衰减模型 聚类 格结构 异常点
在线阅读 下载PDF
基于粗糙模糊集的不确定数据流聚类算法 被引量:2
19
作者 姜元凯 郑洪源 《计算机科学与探索》 CSCD 2014年第12期1494-1501,共8页
为解决高维和高不确定级别的数据流聚类问题,提出了一种针对不确定数据流的聚类算法HFMicro。引入粗糙模糊集理论,定义了一种新的不确定数据流模型,并利用隶属程度的上、下近似来描述微簇。根据粗糙模糊集间的相似程度来选择最合适的微... 为解决高维和高不确定级别的数据流聚类问题,提出了一种针对不确定数据流的聚类算法HFMicro。引入粗糙模糊集理论,定义了一种新的不确定数据流模型,并利用隶属程度的上、下近似来描述微簇。根据粗糙模糊集间的相似程度来选择最合适的微簇。使用动态衰减窗口模型提高算法的效率和聚类效果。由于采用了离线聚类模式,使得算法具有较好的实时性。实验结果表明,该算法能够很好地处理高维和高不确定级别的数据流,同时兼容存在级不确定性和属性级不确定性,与现有算法相比效果更好。 展开更多
关键词 不确定数据流 粗糙模糊集 聚类 隶属度
在线阅读 下载PDF
一种联系数表达的位置不确定数据流聚类算法 被引量:7
20
作者 史玲娟 黄德才 《小型微型计算机系统》 CSCD 北大核心 2020年第2期361-368,共8页
在不确定数据流聚类算法的研究中,位置不确定性是一种新的不确定数据类型.已有的不确定数据模型不能很好地描述和处理位置不确定数据.鉴于此,在提出基于联系数的位置不确定数据模型、联系距离函数、微簇密度可达性等主要概念的基础上,... 在不确定数据流聚类算法的研究中,位置不确定性是一种新的不确定数据类型.已有的不确定数据模型不能很好地描述和处理位置不确定数据.鉴于此,在提出基于联系数的位置不确定数据模型、联系距离函数、微簇密度可达性等主要概念的基础上,提出了一种联系数表达的位置不确定数据流聚类算法--UCNStream.数据流聚类算法采用在线/离线两级处理框架,使用基于密度峰值思想的初始化策略,定义了新的可动态维护的微簇聚类特征向量.利用衰减函数和微簇删除机制对微簇进行在线维护,准确地反映了数据流的演化过程.最后,分析了算法的计算复杂性,并通过对实际数据集上的实验与几种优秀的聚类算法进行了比较,实验结果表明,UCNStream算法具有较高的聚类精度和处理效率. 展开更多
关键词 不确定数据流 联系数 聚类 数据挖掘
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部