期刊文献+
共找到1,506篇文章
< 1 2 76 >
每页显示 20 50 100
THRFuzzy:Tangential holoentropy-enabled rough fuzzy classifier to classification of evolving data streams 被引量:1
1
作者 Jagannath E.Nalavade T.Senthil Murugan 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第8期1789-1800,共12页
The rapid developments in the fields of telecommunication, sensor data, financial applications, analyzing of data streams, and so on, increase the rate of data arrival, among which the data mining technique is conside... The rapid developments in the fields of telecommunication, sensor data, financial applications, analyzing of data streams, and so on, increase the rate of data arrival, among which the data mining technique is considered a vital process. The data analysis process consists of different tasks, among which the data stream classification approaches face more challenges than the other commonly used techniques. Even though the classification is a continuous process, it requires a design that can adapt the classification model so as to adjust the concept change or the boundary change between the classes. Hence, we design a novel fuzzy classifier known as THRFuzzy to classify new incoming data streams. Rough set theory along with tangential holoentropy function helps in the designing the dynamic classification model. The classification approach uses kernel fuzzy c-means(FCM) clustering for the generation of the rules and tangential holoentropy function to update the membership function. The performance of the proposed THRFuzzy method is verified using three datasets, namely skin segmentation, localization, and breast cancer datasets, and the evaluated metrics, accuracy and time, comparing its performance with HRFuzzy and adaptive k-NN classifiers. The experimental results conclude that THRFuzzy classifier shows better classification results providing a maximum accuracy consuming a minimal time than the existing classifiers. 展开更多
关键词 data stream classification fuzzy rough set tangential holoentropy concept change
在线阅读 下载PDF
基于Spark Streaming的实时数据分析系统及其应用 被引量:30
2
作者 韩德志 陈旭光 +2 位作者 雷雨馨 戴永涛 张肖 《计算机应用》 CSCD 北大核心 2017年第5期1263-1269,共7页
为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一... 为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一种动态采样的K-Means并行算法,与DRDAS结合能实时有效地检测大数据环境下的各种分布式拒绝服务(DDo S)攻击。实验结果显示:DRDAS具有好的可扩展性、容错性和实时处理能力,与动态采样的K-Means并行算法结合能实时地检测各种DDo S攻击,缩短了攻击的检测时间。 展开更多
关键词 SPARK streaming框架 分布式流处理 网络数据分析 分布式拒绝服务攻击
在线阅读 下载PDF
基于Spark Streaming流回归的煤矿瓦斯浓度实时预测 被引量:11
3
作者 吴海波 施式亮 念其锋 《中国安全生产科学技术》 CAS CSCD 北大核心 2017年第5期84-89,共6页
为了实时分析瓦斯监测流数据并对瓦斯浓度进行准确预测以实现瓦斯灾害实时预警,以实时流数据处理框架Spark Streaming构建基于流回归的瓦斯浓度实时预测系统。系统采用分布式流处理技术,可使基于回归算法的瓦斯浓度预测模型更新周期达... 为了实时分析瓦斯监测流数据并对瓦斯浓度进行准确预测以实现瓦斯灾害实时预警,以实时流数据处理框架Spark Streaming构建基于流回归的瓦斯浓度实时预测系统。系统采用分布式流处理技术,可使基于回归算法的瓦斯浓度预测模型更新周期达到秒级,提高了瓦斯浓度预测精度,满足流式大数据处理的实时性要求。实验表明:应用Spark Streaming流回归预测系统在采样周期为5s的瓦斯监测数据流上进行实时预测时,预测平均均方根误差随模型更新周期的缩短而减小,模型更新周期可达15s,且更新周期为45s时预测总均方根误差最小,既能保证预测精度,又能提高瓦斯灾害预警时效。 展开更多
关键词 监测数据 流数据 瓦斯浓度 SPARK streamING 流回归 实时预测 灾害预警
在线阅读 下载PDF
ADO组件Stream对象在Web信息发布系统图片上传中的应用 被引量:7
4
作者 徐胜祥 贺立源 +1 位作者 黄魏 陈杰 《计算机应用研究》 CSCD 北大核心 2004年第12期226-228,共3页
基于ASP技术的文件上传/下载服务是目前Web网站实现客户端和服务器端交流信息的一种常用方式,它主要是通过FSO(FileSystemObject)对象实现的。FSO可以实现创建、复制或移动一个文件等基本操作,但它无法直接操作二进制文件,导致图片上传... 基于ASP技术的文件上传/下载服务是目前Web网站实现客户端和服务器端交流信息的一种常用方式,它主要是通过FSO(FileSystemObject)对象实现的。FSO可以实现创建、复制或移动一个文件等基本操作,但它无法直接操作二进制文件,导致图片上传和维护不便。在"华中农业信息网"的管理实践中,借助于ADO的Stream对象设计了Web图片信息发布上传系统,获得了良好效果。对相关技术、设计思路进行了讨论,并给出了系统中的主要功能模块及关键代码。 展开更多
关键词 ADO stream 信息发布 图片上传 二进制数据
在线阅读 下载PDF
Spark Streaming动态资源分配策略 被引量:6
5
作者 刘备 谭新明 曹文彬 《计算机应用》 CSCD 北大核心 2017年第6期1574-1579,共6页
针对Spark Streaming作为混合大数据计算平台流处理组件时资源调整周期长和不能满足多应用多用户个性化需求的问题,提出了一种多应用下动态资源分配策略(DRAM)。该策略增加了应用全局变量来控制动态资源分配过程。首先,获取历史执行数... 针对Spark Streaming作为混合大数据计算平台流处理组件时资源调整周期长和不能满足多应用多用户个性化需求的问题,提出了一种多应用下动态资源分配策略(DRAM)。该策略增加了应用全局变量来控制动态资源分配过程。首先,获取历史执行数据反馈和应用全局变量;然后,进行资源增减计算;最后,进行资源增减执行。实验结果表明,所提策略能够有效调整应用资源配额,且在稳定数据流和不稳定数据流两种情况下,其处理延时相比原Spark平台的Streaming策略和Core策略都有所降低;同时该策略也能够提高集群资源利用率。 展开更多
关键词 SPARK 实时数据流 多应用 动态资源分配
在线阅读 下载PDF
基于Spark Streaming的实时能耗分项计量系统 被引量:9
6
作者 武志学 《计算机应用》 CSCD 北大核心 2017年第4期928-935,共8页
能耗分项计量能够准确、及时、有效地发现能源使用问题,形成和实现最有效的节能措施。能耗分项计量系统需要对各项能源使用量在不同粒度上进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求。由于数据产生... 能耗分项计量能够准确、及时、有效地发现能源使用问题,形成和实现最有效的节能措施。能耗分项计量系统需要对各项能源使用量在不同粒度上进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求。由于数据产生快、实时性强、数据量大,所以很难统一采集并入库存储后再作处理,这便导致传统的数据处理架构不能满足需求。为此,提出基于Spark Streaming大数据流式技术构建一个实时能耗分项计量系统,对实时能耗分项计量的系统架构和内部结构进行了详细介绍,并通过实验数据分析了系统的实时数据处理能力。与传统架构不同,实时能耗分项计量系统在数据流动的过程中实时地进行捕捉和处理,一方面把捕捉到的异常信息及时报警到前端,同时把分类分项统计处理的结果保存到数据库,以便进行离线分析和数据挖掘,能有效地解决上述数据处理过程中遇到的问题。 展开更多
关键词 流式计算 能耗分项计量 SPARK streamING APACHE Kafka 大数据
在线阅读 下载PDF
StreamQCTree:一种流数据方压缩结构 被引量:1
7
作者 甘亮 刘东红 +1 位作者 贾焰 韩伟红 《计算机工程与应用》 CSCD 北大核心 2011年第19期140-143,185,共5页
数据流管理系统计算聚集查询结果保存在内存中形成流数据方(StreamCube),提供快速、精确的在线OLAP查询。有限的内存空间需要一种有效的存储方法来存储更大时间窗口的流数据方。提出一种基于QC-Tree结构的流数据方StreamQCTree生成、裁... 数据流管理系统计算聚集查询结果保存在内存中形成流数据方(StreamCube),提供快速、精确的在线OLAP查询。有限的内存空间需要一种有效的存储方法来存储更大时间窗口的流数据方。提出一种基于QC-Tree结构的流数据方StreamQCTree生成、裁剪及查询方法。将QC-Tree结构中上界集划分为基本上界类和附加上界类;并分析附加上界类的成本计算模型;根据该模型在固定存储空间下,采用动态选择物化结点的方案选择物化部分附加上界类,使对StreamQCTree的平均查询响应时间最小。实验表明,StreamQCTree能够有效地访问数据方且获得较好的压缩效果。 展开更多
关键词 网络安全事件监控 streamQCTree 流数据方 数据压缩 联机分析处理 QC-Tree
在线阅读 下载PDF
TWCT-Stream:数据流上的频繁模式挖掘算法 被引量:1
8
作者 庄波 刘希玉 隆坤 《计算机工程与应用》 CSCD 北大核心 2009年第20期147-150,161,共5页
提出一种结合倾斜时间窗的TWCT树结构,可以保存不同时间粒度下频繁模式的完全集,并设计了其顺序更新和删除算法,使其能够存储在外存,从而有效地降低算法的内存空间需求。结合TWCT树结构特点,提出了数据流上的频繁模式挖掘算法TWCT-Stre... 提出一种结合倾斜时间窗的TWCT树结构,可以保存不同时间粒度下频繁模式的完全集,并设计了其顺序更新和删除算法,使其能够存储在外存,从而有效地降低算法的内存空间需求。结合TWCT树结构特点,提出了数据流上的频繁模式挖掘算法TWCT-Stream,其模式生长的TWCT-Growth算法按字典顺序生成频繁模式,以配合TWCT结构的顺序更新。实验证实算法的内存需求低于FP-Stream等同类算法。 展开更多
关键词 数据流挖掘 频繁模式 倾斜时间窗口
在线阅读 下载PDF
基于垂直压缩格式的高效FP-STREAM算法的研究
9
作者 唐耀红 魏慧琴 《计算机科学》 CSCD 北大核心 2012年第10期160-163,共4页
近年来由于信息的爆炸式增长,数据流频繁模式挖掘逐渐成为研究的热点。FP-Stream作为经典的数据流频繁模式的挖掘算法,实现了多时间粒度的挖掘,但是该算法并未对数据本身进行压缩,使其在一定时间内处理的数据量受到限制,存在有限内存和... 近年来由于信息的爆炸式增长,数据流频繁模式挖掘逐渐成为研究的热点。FP-Stream作为经典的数据流频繁模式的挖掘算法,实现了多时间粒度的挖掘,但是该算法并未对数据本身进行压缩,使其在一定时间内处理的数据量受到限制,存在有限内存和高速海量数据的矛盾。通过对数据流进行垂直和Dif-bits压缩变换来改进FP-Stream算法,大大降低了内存需求,提高了数据处理能力。经过实验证明,改进算法是有效的。 展开更多
关键词 数据流 频繁模式 FP-stream 垂直格式 Dif-bits数据压缩
在线阅读 下载PDF
Spark Streaming框架下的气象自动站数据实时处理系统 被引量:17
10
作者 赵文芳 刘旭林 《计算机应用》 CSCD 北大核心 2018年第1期38-43,55,共7页
针对现有气象自动站业务平台面临处理数据不及时、交互式响应慢、统计时效差等问题,提出了使用Spark Streaming技术和HBase解决该问题的方法,将实时计算框架和分布式数据库系统结合起来实现大规模流式数据处理。使用Flume收集自动站数据... 针对现有气象自动站业务平台面临处理数据不及时、交互式响应慢、统计时效差等问题,提出了使用Spark Streaming技术和HBase解决该问题的方法,将实时计算框架和分布式数据库系统结合起来实现大规模流式数据处理。使用Flume收集自动站数据,Spark Streaming对数据进行流式处理并存储到HBase数据库中,并设计Spark框架下的自动站数据流式入库处理算法和要素极值的实时统计算法,在Cloudera平台下实现了一个高速可靠的实时采集、处理、统计的应用系统。通过对比分析和性能监测,验证了该系统具有低延迟和高吞吐量的优势,运行状况良好,负载均衡。实验结果表明,Spark Streaming用于气象自动站的实时业务处理,数据并行写入HBase、基于HBase的查询和各类要素统计均能达到毫秒级响应,完全能满足自动站数据的应用需求,有效地支撑天气预报业务。 展开更多
关键词 气象自动站 SPARK streamING 流计算 气象数据处理 FLUME
在线阅读 下载PDF
DEN-Stream:一种分布式数据流聚类方法
11
作者 李长路 王劲林 +1 位作者 郭志川 韩锐 《计算机应用与软件》 CSCD 2016年第7期56-59,63,共5页
现有的数据流聚类方法很难兼顾数据稀疏和子空间聚类等高维数据难题,而分布式数据流对数据流聚类提出包括在线计算效率、通信开销以及多路数据的融合等更多挑战。提出分布式数据流聚类方法,采用全局统一的网格划分和衰退时间以支持多路... 现有的数据流聚类方法很难兼顾数据稀疏和子空间聚类等高维数据难题,而分布式数据流对数据流聚类提出包括在线计算效率、通信开销以及多路数据的融合等更多挑战。提出分布式数据流聚类方法,采用全局统一的网格划分和衰退时间以支持多路数据流融合,并周期性检查和删除过期网格来控制概要规模。通过对多路高维数据流的一遍扫描,发现高维数据流子空间任意形状的聚类,并反映数据分布随时间的演化。在线组件效率高开销低,概要信息简洁,通信代价低。实验表明,该方法能够对分布式数据流正确聚类并演进,在线组件效率高,概要规模小。 展开更多
关键词 分布式数据流 子空间聚类 网格聚类 高维数据
在线阅读 下载PDF
基于平滑流式预测误差滤波的多道反褶积方法
12
作者 秦宁 李凌云 +3 位作者 田坤 李傲伟 孙小东 赵亮 《石油物探》 北大核心 2025年第5期854-863,共10页
地震反褶积是提高地震资料分辨率的有效方法,在偏移成像和储层预测等领域发挥着重要作用。传统的反褶积方法通常基于平稳条件采用逐道反演策略进行,虽然可以在一定程度上提高地震记录的分辨率,但缺乏空间约束会导致处理结果的空间连续... 地震反褶积是提高地震资料分辨率的有效方法,在偏移成像和储层预测等领域发挥着重要作用。传统的反褶积方法通常基于平稳条件采用逐道反演策略进行,虽然可以在一定程度上提高地震记录的分辨率,但缺乏空间约束会导致处理结果的空间连续性较差。因此,提出了一种基于流式预测误差滤波器的多道反褶积方法。该方法利用时间和空间约束实现多道自适应反褶积,提高非平稳地震数据反褶积结果的空间连续性。同时,引入平滑矩阵,有利于保护边界和地质构造不被模糊化,对于地质构造复杂的地区尤为重要。新的反褶积方法能有效提高地震数据的纵向分辨率,同时,经过流计算减少计算量,适合处理非平稳的大规模数据。合成数据处理结果表明,加入空间约束能够改善反褶积结果的空间连续性,实际数据处理结果验证了该方法的有效性和实用性。 展开更多
关键词 多道反褶积 流式预测误差滤波 空间连续性 平滑矩阵 非平稳地震数据
在线阅读 下载PDF
基于Kolmogorov不等式的数据流漂移检测方法
13
作者 韩萌 孟凡兴 +3 位作者 李春鹏 张瑞华 何菲菲 丁剑 《计算机工程与应用》 北大核心 2025年第9期102-115,共14页
在现实数据环境中,数据分布经常随着时间推移而变化,该现象称为概念漂移。概念漂移会显著影响原分类模型的性能。因此,当概念漂移出现时,分类模型需及时调整以适应数据分布变化,从而保证学习的有效性。探讨了Kolmogorov不等式在概念漂... 在现实数据环境中,数据分布经常随着时间推移而变化,该现象称为概念漂移。概念漂移会显著影响原分类模型的性能。因此,当概念漂移出现时,分类模型需及时调整以适应数据分布变化,从而保证学习的有效性。探讨了Kolmogorov不等式在概念漂移检测领域的应用潜力。提出了一种基于错误率的Kolmogorov漂移检验策略,利用Kolmogorov不等式设计了概念漂移检测方法,并利用该算法来检测数据流中突然或逐渐出现的概念漂移。提出了一种尾部实例调整策略,减轻了漂移检测样本集中旧实例的影响,从而进一步降低了漂移检测延迟。实验表明,与经典或先进的漂移检测器相比,提出的算法在分类准确率方面表现最佳。在漂移检测性能方面,提出的算法在误检率和检测延迟方面的表现均位于前列,达到了较好的平衡。在运行时间方面也表现出了良好的性能。在上述四个指标的总体比较中优于其他算法,达到了该研究的预期。 展开更多
关键词 概念漂移 漂移检测 数据流 分类 Kolmogorov不等式
在线阅读 下载PDF
基于加权与动态选择的不平衡数据流分类算法
14
作者 韩萌 李春鹏 +3 位作者 李昂 孟凡兴 何菲菲 张瑞华 《计算机工程与应用》 北大核心 2025年第10期79-95,共17页
在数据挖掘领域中,数据流挖掘是一项关键任务,旨在处理不断产生和演化的数据流。与传统的批处理数据挖掘不同,数据流挖掘强调对实时数据的处理和分析,具有更高的时效性和实用性。然而,现实世界的数据流中存在多类别不平衡、变化的类别... 在数据挖掘领域中,数据流挖掘是一项关键任务,旨在处理不断产生和演化的数据流。与传统的批处理数据挖掘不同,数据流挖掘强调对实时数据的处理和分析,具有更高的时效性和实用性。然而,现实世界的数据流中存在多类别不平衡、变化的类别不平衡比和概念漂移等实际挑战,会极大地降低分类器的性能。针对这些问题,提出了一种基于加权与动态选择的不平衡数据流分类算法(sample difficulty weighting and dynamic ensemble selection,SDW-DES),通过综合考虑样本难度和数据动态性,为实时应用提供可靠解决方案。引入一种基于样本分类难度的加权策略,结合样本的边际值和Focal Loss,以更有效地关注易分类错误的样本和少数类样本,从而提高分类器的准确性。提出一种灵活的动态集成选择方法,通过设计样本滑动窗口和困难样本滑动窗口,来综合分析分类器在不同窗口上的表现并加权,选出集成中最好的分类器进行预测,以适应数据分布的动态变化。在多种数据流环境和评估指标上与9种先进的算法进行了全面的实验评估,实验结果表明SDW-DES在4个评估指标中平均排名第一,并且更能够适应数据流中的不平衡和概念漂移问题。 展开更多
关键词 数据流分类 多类不平衡 概念漂移 样本加权 动态集成选择
在线阅读 下载PDF
不平衡数据流的集成分类方法综述 被引量:1
15
作者 朱诗能 韩萌 +3 位作者 杨书蓉 代震龙 杨文艳 丁剑 《计算机工程与应用》 北大核心 2025年第2期59-72,共14页
现实世界的场景中,从数据流中学习会面临着类不平衡的问题,学习算法由于缺少训练数据而无法有效识别少数类样本。为了介绍不平衡数据流集成分类的研究现状和面临的挑战,依据近年来的不平衡数据流集成分类领域文献,从基于加权、选择和投... 现实世界的场景中,从数据流中学习会面临着类不平衡的问题,学习算法由于缺少训练数据而无法有效识别少数类样本。为了介绍不平衡数据流集成分类的研究现状和面临的挑战,依据近年来的不平衡数据流集成分类领域文献,从基于加权、选择和投票的决策规则和基于代价敏感学习、主动学习和增量学习的学习方式的角度详细分析和总结了不平衡数据流的集成方法,并比较了使用相同数据集的算法的性能。针对处理不同类型复杂数据流中的不平问题,从概念漂移、多类、噪声和类重叠四个方面对其集成分类算法进行总结,分析了经典算法的时间复杂度。对动态数据流、缺失信息的数据流、多标签数据流和不确定数据流中不平衡问题的分类挑战提出了下一步的集成策略研究。 展开更多
关键词 不平衡数据流 集成分类 决策规则 学习方式 复杂数据流
在线阅读 下载PDF
面向Apache Flink流式分析应用的高吞吐优化技术 被引量:1
16
作者 秦政 许利杰 +4 位作者 陈伟 王毅 吴铭钞 曾鸿斌 王伟 《软件学报》 北大核心 2025年第7期3184-3208,共25页
随着大数据时代的到来,海量的用户数据赋能了众多数据驱动的行业应用,例如智慧交通、智能电网、商品推荐等.在数据实时性要求高的应用场景下,数据中的业务价值随时间增长快速降低,因此数据分析系统需要具有高吞吐和低延迟能力,以Apache ... 随着大数据时代的到来,海量的用户数据赋能了众多数据驱动的行业应用,例如智慧交通、智能电网、商品推荐等.在数据实时性要求高的应用场景下,数据中的业务价值随时间增长快速降低,因此数据分析系统需要具有高吞吐和低延迟能力,以Apache Flink为代表的流式大数据处理系统得到广泛应用.Flink通过在集群的计算节点上并行化计算任务,水平扩展系统吞吐率.然而,已有研究指出,Flink存在单点性能弱,集群水平可扩展性差的问题.为了提高流式大数据处理系统的吞吐率,研究者在控制平面设计、系统算子实现和垂直可扩展性等方面开展优化,但现有工作尚缺乏对流式分析应用数据流的关注.流式分析应用是由事件流驱动并使用有状态处理函数的应用,例如智能电网场景下的低电压检测应用、商品推荐场景下的广告活动分析应用等.对典型的流式分析应用的数据流特征进行分析,总结其中存在的3个水平可扩展性瓶颈并给出相应的优化策略,包括:键级水位线,动态负载分发策略和基于键值的数据交换策略.基于上述优化技术,对Flink框架进行扩展并形成原型系统Trilink,选取真实场景数据集:低电压检测应用,桥梁拱顶监测应用和典型流式分析测试基准Yahoo Streaming Benchmark,与现有工作进行测试比较.实验结果表明,相较于Flink,Trilink在单机环境下吞吐率提升了5倍以上,8节点下水平扩展加速比提高了1.6倍以上. 展开更多
关键词 流式处理 分布式系统 性能优化 大数据系统
在线阅读 下载PDF
基于主动−被动增量集成的概念漂移适应方法
17
作者 祁晓博 陈佳明 +3 位作者 史颖 亓慧 郭虎升 王文剑 《自动化学报》 北大核心 2025年第5期1131-1144,共14页
数据流是一组随时间连续到来的数据序列,在数据流不断产生的过程中,由于各种因素的影响,数据分布随时间推移可能以不可预测的方式发生变化,这种现象称为概念漂移.在漂移发生后,当前模型需要及时响应数据流中的实时分布变化,并有效处理... 数据流是一组随时间连续到来的数据序列,在数据流不断产生的过程中,由于各种因素的影响,数据分布随时间推移可能以不可预测的方式发生变化,这种现象称为概念漂移.在漂移发生后,当前模型需要及时响应数据流中的实时分布变化,并有效处理不同类型的概念漂移,从而避免模型泛化性能下降.针对这一问题,提出一种基于主动–被动增量集成的概念漂移适应方法(CDAM-APIE).该方法首先使用在线增量集成策略构建被动集成模型,对新样本进行实时预测以动态更新基模型权重,有利于快速响应数据分布的瞬时变化,并增强模型适应概念漂移的能力.在此基础上,利用增量学习和概念漂移检测技术构建主动基模型,提升模型在平稳数据流状态下的鲁棒性和漂移后的泛化性能.实验结果表明,CDAMAPIE能够对概念漂移做出及时响应,同时有效提高模型的泛化性能. 展开更多
关键词 概念漂移 数据流分类 增量学习 在线集成
在线阅读 下载PDF
基于数据流的漂移性多光斑聚类算法研究
18
作者 申超屹 刘怡 +3 位作者 王雪梅 马蒙蒙 曾晶 刘东升 《激光技术》 北大核心 2025年第5期710-717,共8页
为了降低多接入通信系统误比特率,基于四象限探测器的多目标光斑分辨技术,分析了通信激光光斑数据流的特点,对3种传统聚类算法进行了比较。对在多光斑分辨方面表现出更好综合效果的k均值聚类算法进行了扩展,提出了基于数据流的漂移性多... 为了降低多接入通信系统误比特率,基于四象限探测器的多目标光斑分辨技术,分析了通信激光光斑数据流的特点,对3种传统聚类算法进行了比较。对在多光斑分辨方面表现出更好综合效果的k均值聚类算法进行了扩展,提出了基于数据流的漂移性多光斑聚类算法。首先通过初始聚类自适应选择最优簇数,然后对新光斑数据进行实时漂移检测和聚类,并对算法的分类判决参数进行实时更新。结果表明,该算法解决了光斑漂移下的多光斑分辨问题,光斑分辨精确度相比传统算法有显著提高,稳定在90%以上。该研究提高了通信质量,为多接入通信的实现提供了算法支撑。 展开更多
关键词 光通信 多光斑分辨 数据流聚类 光斑漂移
在线阅读 下载PDF
一种适用数据流概念漂移检测与适应的增量密度聚类算法
19
作者 陆昊阳 范玉雷 +1 位作者 高楠 杨良怀 《电子学报》 北大核心 2025年第6期2050-2062,共13页
为处理随时间不断演化、非平稳数据流中的概念漂移问题,本文提出一种适用数据流概念漂移检测和适应的增量密度聚类算法(InCremental Density-based Clustering algorithm,ICDC).ICDC改进了1次遍历聚类框架,采用惰性方式处理离群点,由新... 为处理随时间不断演化、非平稳数据流中的概念漂移问题,本文提出一种适用数据流概念漂移检测和适应的增量密度聚类算法(InCremental Density-based Clustering algorithm,ICDC).ICDC改进了1次遍历聚类框架,采用惰性方式处理离群点,由新达数据触发离群点评估,以区分潜在微簇和噪声;聚类过程中要求数据点和微簇满足特征依赖及时序依赖的条件,有效去除离群点集中的异常值,克服了现有离群点处理方式中因异常点的加入导致类簇结构以不可逆转方式持续恶化的情形;设计了一种离群点生命周期调节机制,有效控制缓存大小的增长;以类簇结构变化作为概念漂移指示器,设计了相应检测算法,提升了增量密度聚类算法对数据流演变过程中局部模式和全局模式变化的敏感性.在多个真实和合成数据集上对数据流聚类质量及聚类性能、概念漂移检测和适应、算法的内存开销和计算开销等方面开展实验,结果表明,该算法在大多数数据集上的聚类结果都优于现有算法,同时能够有效检测概念漂移. 展开更多
关键词 概念漂移 增量聚类 密度聚类 数据流
在线阅读 下载PDF
无监督多视图特征选择研究进展
20
作者 吴建生 李艳兰 +1 位作者 黄冲 闵卫东 《软件学报》 北大核心 2025年第2期886-914,共29页
多视图数据从不同角度描述数据对象,数据在不同视图中的特征表示之间存在着相关性、互补性及多样性信息.综合利用这些信息对多视图数据处理至关重要.然而,多视图数据通常具有高维度特点,且常含有噪声特征,这为多视图数据的处理与分析带... 多视图数据从不同角度描述数据对象,数据在不同视图中的特征表示之间存在着相关性、互补性及多样性信息.综合利用这些信息对多视图数据处理至关重要.然而,多视图数据通常具有高维度特点,且常含有噪声特征,这为多视图数据的处理与分析带来了许多困难.无监督多视图特征选择无需样本标记信息,从多个视图源的原始高维特征中学习更紧凑、更准确的特征表示以提高数据分析的效果,在多视图数据处理领域起着重要作用.根据已有的无监督多视图特征选择模型的工作机制的异同,对这些模型进行归纳和总结,分析其中存在的不足,并指出未来研究的方向. 展开更多
关键词 多视图数据 无监督特征选择 聚类 结构保持 流数据
在线阅读 下载PDF
上一页 1 2 76 下一页 到第
使用帮助 返回顶部