期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于动态网格的数据流离群点快速检测算法 被引量:22
1
作者 杨宜东 孙志挥 +2 位作者 朱玉全 杨明 张柏礼 《软件学报》 EI CSCD 北大核心 2006年第8期1796-1803,共8页
离群点检测问题作为数据挖掘的一个重要任务,在众多领域中得到了应用.近年来,基于数据流数据的挖掘算法研究受到越来越多的重视.为了解决数据流数据中的离群点检测问题,提出了一种基于数据空间动态网格划分的快速数据流离群点检测算法.... 离群点检测问题作为数据挖掘的一个重要任务,在众多领域中得到了应用.近年来,基于数据流数据的挖掘算法研究受到越来越多的重视.为了解决数据流数据中的离群点检测问题,提出了一种基于数据空间动态网格划分的快速数据流离群点检测算法.算法利用动态网格对空间中的稠密和稀疏区域进行划分,过滤处于稠密区域的大量主体数据,有效地减少了算法所需考察的数据对象的规模.而对于稀疏区域中的候选离群点,采用近似方法计算其离群度,具有高离群度的数据作为离群点输出.在保证一定精确度的条件下,算法的运行效率可以得到大幅度提高.对模拟数据集和真实数据集的实验检测均验证了该算法具有良好的适用性和有效性. 展开更多
关键词 数据流 离群点检测 时间相关动态网格划分
在线阅读 下载PDF
面向轨迹流数据的索引构建与存储方法研究 被引量:3
2
作者 蔡瑞初 林峰极 +2 位作者 郝志峰 王立 温雯 《计算机工程》 CAS CSCD 北大核心 2021年第3期62-70,共9页
移动社交网络等基于定位服务应用的快速发展导致时空数据流规模呈爆炸式增长,要求底层数据存储系统支持高吞吐量轨迹数据的插入以及空间和时间约束下的低延迟查询,而现有HBase等数据存储方案因索引更新开销过高无法满足该需求。针对时... 移动社交网络等基于定位服务应用的快速发展导致时空数据流规模呈爆炸式增长,要求底层数据存储系统支持高吞吐量轨迹数据的插入以及空间和时间约束下的低延迟查询,而现有HBase等数据存储方案因索引更新开销过高无法满足该需求。针对时空数据流的应用特性,提出一种数据流内存索引及存储方法。根据键值和时间范围对历史与增量数据元组进行物理分区,将其以模板B+树的形式写入内存并构建索引以增强快速写入和查询能力,同时对数据进行压缩存储提升索引效率。在此基础上,采用多级索引根据数据分区将复杂查询分解为可独立处理的子查询。实验结果表明,与传统HBase、WaterWheel等方法相比,该方法在不同数据插入和查询条件下的数据存储性能与查询效率更优。 展开更多
关键词 轨迹流数据 数据分区 存储 多级索引 BLOOM过滤器
在线阅读 下载PDF
基于时空划分的数据流挖掘 被引量:4
3
作者 袁正午 袁松彪 《计算机工程》 CAS CSCD 北大核心 2010年第7期61-62,65,共3页
基于时空划分的思想,设计概要数据结构的在线生成算法。概要数据结构保存流数据不同时刻的分布状态,以支持离线阶段的分类、聚类和关联规则发现等数据挖掘操作。研究时间粒度、量化向量调整和子区域索引等3项内存需求控制策略,以平衡概... 基于时空划分的思想,设计概要数据结构的在线生成算法。概要数据结构保存流数据不同时刻的分布状态,以支持离线阶段的分类、聚类和关联规则发现等数据挖掘操作。研究时间粒度、量化向量调整和子区域索引等3项内存需求控制策略,以平衡概要数据结构的内存需求和内外存之间的I/O次数。 展开更多
关键词 数据流 时空划分 概要数据结构 聚类
在线阅读 下载PDF
一种基于图像内容的数据分割方法 被引量:2
4
作者 杜建超 吴成柯 +1 位作者 杨亚东 肖嵩 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2006年第2期200-204,共5页
基于对H.264数据分割技术的分析,提出一种基于图像内容的新的数据分割方法.它将视频流按照比特重要性分为3个子流,依次为:头信息、Intra宏块信息和部分Inter宏块信息、剩余Inter宏块信息.位于不同子流的Inter宏块由其对图像质量的影响... 基于对H.264数据分割技术的分析,提出一种基于图像内容的新的数据分割方法.它将视频流按照比特重要性分为3个子流,依次为:头信息、Intra宏块信息和部分Inter宏块信息、剩余Inter宏块信息.位于不同子流的Inter宏块由其对图像质量的影响程度进行区分,并由优化算法对其数量进行分配.实验结果表明,该方法较H.264标准中提出的数据分割技术,更符合图像内容和当前网络条件的变化.结合不等错误保护,能较大程度地改善视频流的传输质量. 展开更多
关键词 视频流 数据分割 视频容错 图像内容 不等重错误保护
在线阅读 下载PDF
基于工厂信息的实时数据流分析与全过程质量监控 被引量:4
5
作者 边小勇 张晓龙 余海 《计算机应用》 CSCD 北大核心 2012年第10期2935-2939,共5页
针对某钢铁企业生产过程中的生产信息不畅通、产品质量无法追踪问题,开展了基于工厂信息(PI)的实时数据流分析与全过程质量监控方法的研究。着重研究了实时数据流分割和过程监控,提出基于统计质量控制(SQC)图和工序性能指标的统计监控方... 针对某钢铁企业生产过程中的生产信息不畅通、产品质量无法追踪问题,开展了基于工厂信息(PI)的实时数据流分析与全过程质量监控方法的研究。着重研究了实时数据流分割和过程监控,提出基于统计质量控制(SQC)图和工序性能指标的统计监控方法,并开发了一个产品技术质量监控系统,应用结果表明基于PI的实时数据流分析与产品质量监控实现了企业对生产工序质量的监控,以及关键生产工艺的识别与改进。 展开更多
关键词 生产信息数据 工厂信息数据库 实时数据流分割 统计质量控制图 工序质量监控
在线阅读 下载PDF
一种有效降低误差扩散的数据分割方法 被引量:1
6
作者 杜建超 肖嵩 +1 位作者 吴成柯 张建龙 《电子学报》 EI CAS CSCD 北大核心 2006年第10期1823-1827,共5页
提出一种有效降低误差扩散的数据分割方法.该方法改进了H.264划分子流的做法,采用当前编码宏块被错误解码时对下一编码帧产生的误差扩散程度来判别该宏块的优先级,以此划分不同的传输子流.在给定网络带宽和丢包率的情况下,采用率... 提出一种有效降低误差扩散的数据分割方法.该方法改进了H.264划分子流的做法,采用当前编码宏块被错误解码时对下一编码帧产生的误差扩散程度来判别该宏块的优先级,以此划分不同的传输子流.在给定网络带宽和丢包率的情况下,采用率失真优化的码率分配算法对不同传输子流分别施以不同的信道编码保护力度,以保证在相同传输条件下,优先级高的宏块被正确接收的概率最大化,使重建视频流的质量达到最优.该方法实现简单,对宏块的分类更加合理,有效降低了由于包丢失引起的误差扩散效应,改善了重建视频的质量.实验结果表明在相同的带宽和丢包率条件下,本文方法比H.264方法提高视频接收质量大约0.3~0.6dB. 展开更多
关键词 视频流传输 数据分割 视频容错 误差扩散 不等重错误保护
在线阅读 下载PDF
数据流与磁盘存贮表的连接计算算法 被引量:1
7
作者 杜威 邹先霞 《控制工程》 CSCD 北大核心 2014年第6期904-908,912,共6页
数据流与存贮表的连接查询经常出现在主动式数据仓库的维护中,与传统的关系数据库的连接计算不同,数据流快速处理的要求不允许将数据流先存入磁盘再计算,而计算机内存无法存储无界增长的数据流,因此数据流查询采用先处理再存储结果的计... 数据流与存贮表的连接查询经常出现在主动式数据仓库的维护中,与传统的关系数据库的连接计算不同,数据流快速处理的要求不允许将数据流先存入磁盘再计算,而计算机内存无法存储无界增长的数据流,因此数据流查询采用先处理再存储结果的计算方式。数据流与存贮表的连接计算算法重点要解决内存开销和处理速率二个问题。MESHJOIN算法最早提出将存贮表划分为若干个数据块,将数据块交替放入内存与数据流窗口完成连接计算。在MESHJOIN算法思想的基础上将存贮表的内存数据块也划分为若干逻辑分区,每次连接计算仅替换其中的一个逻辑分区,有效地降低了数据流滑动窗口所需的I/O代价,从而提高滑动窗口的计算速率。最后通过实验对二种算法在内存开销和计算速率进行了比较。 展开更多
关键词 数据流 连接计算 磁盘存储表 逻辑分区 速率
在线阅读 下载PDF
一种基于数据流约束的Web服务组合划分方法
8
作者 彭杨 崔曙光 高春鸣 《计算机工程与应用》 CSCD 北大核心 2007年第29期150-153,164,共5页
在WebJet平台工具支撑下,针对数据流约束的应用环境,对Web服务采取集中式组合,分布式运行的技术路线。在满足划分之间数据流量最小化以及分布式系统吞吐量最大化的目标约束下,运用图划分的多级算法将Web服务组合划分成分布式代码片段。... 在WebJet平台工具支撑下,针对数据流约束的应用环境,对Web服务采取集中式组合,分布式运行的技术路线。在满足划分之间数据流量最小化以及分布式系统吞吐量最大化的目标约束下,运用图划分的多级算法将Web服务组合划分成分布式代码片段。在划分过程中,以极小化边割权值和为目标,多资源负载均衡为约束条件。实例分析说明该算法能自动、快速地将集中式BPEL程序划分为分布式的BPEL程序,并对BPEL程序迁移到的分布式节点之间的负载进行基于多资源约束的均衡调整,使分布式运行系统达到负载均衡。 展开更多
关键词 图划分 WEB服务组合 数据流约束 负载均衡
在线阅读 下载PDF
一种流数据实时写入保障下的数据查询方法 被引量:7
9
作者 侯荣军 房俊 张建静 《计算机应用研究》 CSCD 北大核心 2014年第9期2736-2740,共5页
各类流式传感数据的实时接收与处理是物联网智能应用的基本要求。针对某城市车辆实时监管系统暴露出的数据实时接收与高效数据查询互相制约的问题,提出一种适用于物联网数据管理的结构化数据查询优化方法,在保障流数据实时写入的同时提... 各类流式传感数据的实时接收与处理是物联网智能应用的基本要求。针对某城市车辆实时监管系统暴露出的数据实时接收与高效数据查询互相制约的问题,提出一种适用于物联网数据管理的结构化数据查询优化方法,在保障流数据实时写入的同时提供高效的数据查询能力。该方法采用数据库集群应对数据并发访问时的性能需求;通过主从延迟复制技术减少数据查询对数据写入性能的影响;采用数据分区和数据缓存技术提升单数据节点的查询性能。实验结果表明,该方法能在一定程度上减少查询对数据写入的影响,提高数据的查询效率。 展开更多
关键词 流数据 实时写入 数据查询 数据库集群 主从延迟复制 数据分区 数据缓存
在线阅读 下载PDF
基于分布式流处理的自适应数据分发策略 被引量:2
10
作者 闾程豪 荆一楠 +1 位作者 何震瀛 王晓阳 《计算机应用与软件》 北大核心 2018年第8期24-30,共7页
现有的分布式流数据分发方法通常只针对某一类数据分布的特征进行优化,以降低处理的延迟时间。现实情况中,数据分布的特征往往会随着时间发生变化,导致针对特定数据分布特征进行优化的分发方法无法总是获得最低的处理延迟时间。解决上... 现有的分布式流数据分发方法通常只针对某一类数据分布的特征进行优化,以降低处理的延迟时间。现实情况中,数据分布的特征往往会随着时间发生变化,导致针对特定数据分布特征进行优化的分发方法无法总是获得最低的处理延迟时间。解决上述问题可以使用一种自适应数据分发策略APS(Adaptive Partition Strategy)。在mini-batch分布式流处理模型中,APS策略选取一系列当下被广泛使用的数据分发方法作为候选,在每个minibatch上对不同候选方法的最大负载和键值分离程度进行整体评估,进而根据评估结果进行分发方法的调整。实验结果表明,在处理维基项目的真实数据集时,该策略与现有分发方法相比,最多能将处理延迟时间降低26.7%。 展开更多
关键词 分布式数据流处理 流数据分发 负载均衡 键值分离 自适应策略
在线阅读 下载PDF
基于k-d树分区的聚类算法并行加速策略 被引量:4
11
作者 汪丽娟 钱育蓉 +3 位作者 侯海耀 张晗 赵京霞 赵燚 《计算机工程与设计》 北大核心 2019年第12期3437-3442,共6页
针对传统K-Means算法存在准确率低、聚类速度慢的问题,从K-Means算法优化和Flink框架并行层面对K-Means算法优化。为避免算法陷入局部最优解,采用质心间最大距离原则选出k个质心;为提高大数据量下的K-Means聚类速度,提出用k-d树算法划... 针对传统K-Means算法存在准确率低、聚类速度慢的问题,从K-Means算法优化和Flink框架并行层面对K-Means算法优化。为避免算法陷入局部最优解,采用质心间最大距离原则选出k个质心;为提高大数据量下的K-Means聚类速度,提出用k-d树算法划分数据集实现操作算子并行化,设置多个TaskManager数目和CPU核数加速F-KMeans算法的执行。实验结果表明,较K-Means算法,F-KMeans算法的准确率提高了约3.6%;F-KMeans算法在DataSource耗时降低了45.45%,在其余阶段耗时平均降低了约28.57%。 展开更多
关键词 数据分区 加速策略 性能优化 并行化 流式计算
在线阅读 下载PDF
一种基于质量估算的空间数据流聚类算法研究 被引量:1
12
作者 樊超 李宏伟 +1 位作者 朱燕 施方林 《计算机应用研究》 CSCD 北大核心 2017年第9期2700-2702,2713,共4页
针对传统的基于网格密度的数据流聚类方法丢失数据的空间位置特性的缺陷,提出了一种基于质量估算(mass estimation)的空间数据流聚类方法。通过h:d树进行空间划分,可将到达数据映射到不同的划分区域,在树得到质量(mass)的基础上,进行各... 针对传统的基于网格密度的数据流聚类方法丢失数据的空间位置特性的缺陷,提出了一种基于质量估算(mass estimation)的空间数据流聚类方法。通过h:d树进行空间划分,可将到达数据映射到不同的划分区域,在树得到质量(mass)的基础上,进行各子区域的密度推算的同时引入衰减因子,以及在线动态维护微簇,可精确反映空间数据流的演化信息。该方法在真实数据与模拟数据的综合实验中验证了算法的聚类效果与高效率性,并通过与传统数据流聚类算法的对比,进一步体现出其在聚类效果上的优势。该方法能够在保证较低的时间复杂度的基础上,更好地保留数据的空间位置特性,因而能够更好地适应空间数据流聚类的需求。 展开更多
关键词 空间数据挖掘 空间数据流 数据流聚类 质量估算 空间划分
在线阅读 下载PDF
基于数据分区的云计算高维数据均衡分流 被引量:5
13
作者 张露 尚艳玲 《济南大学学报(自然科学版)》 CAS 北大核心 2022年第1期74-79,共6页
针对当前分流策略无法应对高维数据的冗余度、复杂性以及动态变化,为了有效提升云计算高维数据的分流精度与分流效率,以云计算环境下高维数据为研究对象,提出基于数据分区的云计算高维数据均衡分流方法;通过分析高维数据分布特性,明确... 针对当前分流策略无法应对高维数据的冗余度、复杂性以及动态变化,为了有效提升云计算高维数据的分流精度与分流效率,以云计算环境下高维数据为研究对象,提出基于数据分区的云计算高维数据均衡分流方法;通过分析高维数据分布特性,明确分区维度、数量以及边界,利用峰间低谷部分中任意点的对应扫描线,完成高维数据分区;采用构建的数据特征提取策略提取高维数据特征,经迭代更新数据聚类中心,实现高维数据均衡分流;通过模拟实验,以数据流标准方差与数据流比例标准方差为指标,验证数据流分流质量与负载均衡效果。结果表明,云计算高维数据均衡分流方法的数据流比例标准方差较小,具有较高的数据分流精度和效率。 展开更多
关键词 数据分区 云计算 高维数据 均衡分流 特征提取 聚类中心
在线阅读 下载PDF
ETHs:n-of-N模型下基于指数划分的一种数据流大纲维护算法
14
作者 邱海艳 陈立军 赵加奎 《计算机科学》 CSCD 北大核心 2005年第11期81-84,共4页
数据流大纲的维护对于DSMS非常重要:流数据的实时性、持续性和有序性(即,老化特性)使得查询引擎需要根据实时的概要信息自适应地调整执行计划,保持其执行效率。本文提出一种新的数据流大纲结构—ETNs,它通过指数划分方法将数据流在时间... 数据流大纲的维护对于DSMS非常重要:流数据的实时性、持续性和有序性(即,老化特性)使得查询引擎需要根据实时的概要信息自适应地调整执行计划,保持其执行效率。本文提出一种新的数据流大纲结构—ETNs,它通过指数划分方法将数据流在时间域上划分为指数区间,每个区间用具有较小空间复杂度和时间复杂度的Tiny直方图来记录区间的概要信息,使得ETHs既能够反映数据流上某些数据的衰减,又能够实现n-of-N模型下的共享计算,在εN误差范围内持续地维护最近N个元素的概要信息,具有较小的时间代价和空间代价。实验证明,ETHs是数据流上的一种较理想的大纲结构。 展开更多
关键词 数据流 大纲 n-of-N 等深 指数划分 f-N模型 维护算法 指数 时间复杂度 空间复杂度
在线阅读 下载PDF
基于Storm的流数据KNN分类算法的研究与实现 被引量:7
15
作者 周志阳 冯百明 +1 位作者 杨朋霖 温向慧 《计算机工程与应用》 CSCD 北大核心 2017年第19期71-75,97,共6页
KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类。近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据。考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以... KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类。近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据。考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以及流处理系统Storm对流数据处理具有实时性、可靠性的特点,提出了基于Storm的流数据KNN分类算法,该算法首先对整个样本集进行划分,形成多个片集,然后计算出待分类向量在各片集上的K近邻,最后再将所有片集K近邻归约得出整体K近邻,实现待分类向量的分类。实验结果表明,基于Storm的流数据KNN分类算法能够满足大数据背景下对流数据分类的高吞吐量、可扩展性、实时性和准确性的要求。 展开更多
关键词 STORM KNN算法 流数据 大数据 数据划分
在线阅读 下载PDF
基于流式计算框架的实时数据库分区系统 被引量:7
16
作者 郭蒙雨 康宏 袁晓洁 《计算机工程》 CAS CSCD 北大核心 2017年第11期8-15,共8页
为实现大数据环境下大规模动态分区信息的高效处理,结合流式计算框架,提出一种实时数据库分区系统。采用大数据环境下的流式计算技术处理大规模动态的工作负载,设计实时数据分区算法实现数据分区的自动与即时生成,并利用流式计算框架的... 为实现大数据环境下大规模动态分区信息的高效处理,结合流式计算框架,提出一种实时数据库分区系统。采用大数据环境下的流式计算技术处理大规模动态的工作负载,设计实时数据分区算法实现数据分区的自动与即时生成,并利用流式计算框架的水平扩展机制提高系统扩展性和吞吐量。实验结果表明,该系统可在大数据环境下实现高效、实时的数据库分区,与传统分区算法相比,具有更高的分区质量和更少的分区时间。 展开更多
关键词 数据库分区 流式计算框架 大数据管理 分布式存储 动态负载
在线阅读 下载PDF
应用驱动的基于流式框架的实时数据分区算法 被引量:1
17
作者 康宏 郭蒙雨 袁晓洁 《计算机应用研究》 CSCD 北大核心 2018年第4期1135-1141,1178,共8页
数据分区技术是改善基于shared-nothing架构的大型应用性能的重要手段。当前的数据分区技术无法高效处理应用负载所蕴涵的动态、大规模分区信息,无法即时生成分区策略。为了解决传统数据库分区技术面临的问题,实现分区的实时处理,提出... 数据分区技术是改善基于shared-nothing架构的大型应用性能的重要手段。当前的数据分区技术无法高效处理应用负载所蕴涵的动态、大规模分区信息,无法即时生成分区策略。为了解决传统数据库分区技术面临的问题,实现分区的实时处理,提出了与流式框架相结合的实时数据分区算法,通过构建关联矩阵映射分区信息,并基于代价模型实现数据分区方案的即时生成,采用流式框架的水平扩展机制实现了算法的高扩展性和高吞吐量适应性。实验结果表明,与现有分区方法相比,算法有较好的分区效果和较低的时间复杂度。该算法是大数据环境下针对大规模、动态工作负载进行实时数据分区的有效手段。 展开更多
关键词 负载驱动 数据分区 流式框架
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部