题名 基于Multi-GPU平台的大规模图数据处理
被引量:8
1
作者
张珩
张立波
武延军
机构
中国科学院软件研究所
中国科学院大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第2期273-288,共16页
基金
中国科学院战略性先导科技专项(XDA06010600)~~
文摘
在GPU高性能节点上构建高效的大规模图数据的算法和系统已经日益成为研究热点,以GPU协处理器为计算核心不仅能够提供大规模线程的并行环境,也能提供高吞吐的内存和缓存访问机制.随着图的规模增大,相对大小局限的GPU的设备访存空间逐渐不能满足缓存整个图数据的应用需求,也催生了大量以单节点上外存I/O优化(out-of-core graph)为主要研究方向的大规模图数据处理系统.为了应对这一瓶颈,现有的算法和系统研究采用对图切分的压缩数据形式(即shards)用以数据传输和迭代计算.然而,这类研究扩展到Multi-GPU平台上往往性能的局限性表现在对PCI-E带宽的高依赖性,同时也由于Multi-GPU上任务负载不均衡而缺乏一定的可扩展性.为了应对上述挑战,提出并设计了基于Multi-GPU平台的支持高效、可扩展的大规模图数据处理系统GFlow.GFlow提出了全新的适用于Multi-GPU下的图数据Grid切分策略和双层滑动窗口算法,在将图的属性数据(点的状态集合、点/边权重值)缓存于各GPU设备之后,顺序加载图的拓扑结构数据(点/边集合)值各GPU中.通过双层滑动窗口,GFlow动态地加载数据分块从SSD存储至GPU设备内存,并顺序化聚合并应用处理过程中各GPU所生成的Updates.通过在9个现实图数据集上的实验结果可以看出,GFlow在Multi-GPU平台下相比其他支持外存图(out-of-core graph)处理的相关系统性能表现更为优异,对比CPU下的GraphChi和X-Stream分别提升25.6X和20.3X,对比GPU下支持外存图数据处理的GraphReduce系统单GPU提升1.3~2.5X.同时GFlow可扩展性在Multi-GPU上也表现良好.
关键词
大规模图数据
multi - GPU
图分块
双层滑动窗口
数据传输
Keywords
large scalegraph
multi - GPU
graph shard
dual stream ing windows
data movement
分类号
TP316.4
[自动化与计算机技术—计算机软件与理论]
题名 基于凸优化的MIMO-FBMC系统峰均比抑制方法
被引量:2
2
作者
李贻韬
陈西宏
袁迪喆
胡邓华
机构
空军工程大学防空反导学院
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2020年第8期1835-1840,共6页
基金
国家自然科学基金(61671468)资助课题。
文摘
目前,多载波滤波器组(filter bank multi-carrier,FBMC)因其良好的性能,成为5G通信中重要的调制方式。为了提高移动通信的质量和速率,采取了将多输入多输出(multiple input multiple output,MIMO)技术和FBMC技术相结合。首先,建立多串流传输模型和共轭数据结构,分析数据流、天线数和预编码矩阵之间的关系。然后,研究系统的峰均功率比(peak-to-average power ratio,PAPR),用凸优化模型对PAPR降低问题进行简化。最后,用快速迭代收缩门槛算法(fast iterative truncation algorithm,FITRA)求解凸优化问题。仿真结果表明,该方法在频率选择性衰落信道中有着优异的PAPR性能,误码率性能良好。
关键词
多输入多输出
多载波滤波器组
多串流传输
共轭数据结构
峰均比
快速迭代收缩门槛算法
Keywords
multi ple input multi ple output(MIMO)
filter bank multi - carrier(FBMC)
multi - stream transmission
conjugate data structure
peak- to- average power ratio(PAPR)
fast iterative truncation algorithm(FITRA)
分类号
TN70
[电子电信—电路与系统]
题名 基于加权与动态选择的不平衡数据流分类算法
3
作者
韩萌
李春鹏
李昂
孟凡兴
何菲菲
张瑞华
机构
北方民族大学计算机科学与工程学院
出处
《计算机工程与应用》
北大核心
2025年第10期79-95,共17页
基金
国家自然科学基金(62062004)
宁夏自然科学基金(2022AAC03279)
北方民族大学中央高校基本科研业务费专项资金(2021KJCX10)。
文摘
在数据挖掘领域中,数据流挖掘是一项关键任务,旨在处理不断产生和演化的数据流。与传统的批处理数据挖掘不同,数据流挖掘强调对实时数据的处理和分析,具有更高的时效性和实用性。然而,现实世界的数据流中存在多类别不平衡、变化的类别不平衡比和概念漂移等实际挑战,会极大地降低分类器的性能。针对这些问题,提出了一种基于加权与动态选择的不平衡数据流分类算法(sample difficulty weighting and dynamic ensemble selection,SDW-DES),通过综合考虑样本难度和数据动态性,为实时应用提供可靠解决方案。引入一种基于样本分类难度的加权策略,结合样本的边际值和Focal Loss,以更有效地关注易分类错误的样本和少数类样本,从而提高分类器的准确性。提出一种灵活的动态集成选择方法,通过设计样本滑动窗口和困难样本滑动窗口,来综合分析分类器在不同窗口上的表现并加权,选出集成中最好的分类器进行预测,以适应数据分布的动态变化。在多种数据流环境和评估指标上与9种先进的算法进行了全面的实验评估,实验结果表明SDW-DES在4个评估指标中平均排名第一,并且更能够适应数据流中的不平衡和概念漂移问题。
关键词
数据流分类
多类不平衡
概念漂移
样本加权
动态集成选择
Keywords
data stream classification
multi - class imbalance
concept drift
sample weighting
dynamic ensemble selection
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于数据流的漂移性多光斑聚类算法研究
4
作者
申超屹
刘怡
王雪梅
马蒙蒙
曾晶
刘东升
机构
西南技术物理研究所
出处
《激光技术》
北大核心
2025年第5期710-717,共8页
文摘
为了降低多接入通信系统误比特率,基于四象限探测器的多目标光斑分辨技术,分析了通信激光光斑数据流的特点,对3种传统聚类算法进行了比较。对在多光斑分辨方面表现出更好综合效果的k均值聚类算法进行了扩展,提出了基于数据流的漂移性多光斑聚类算法。首先通过初始聚类自适应选择最优簇数,然后对新光斑数据进行实时漂移检测和聚类,并对算法的分类判决参数进行实时更新。结果表明,该算法解决了光斑漂移下的多光斑分辨问题,光斑分辨精确度相比传统算法有显著提高,稳定在90%以上。该研究提高了通信质量,为多接入通信的实现提供了算法支撑。
关键词
光通信
多光斑分辨
数据流聚类
光斑漂移
Keywords
optical communication
multi - spot resolution
data stream clustering
spot drift
分类号
TN929.12
[电子电信—通信与信息系统]
题名 Spark Streaming动态资源分配策略
被引量:6
5
作者
刘备
谭新明
曹文彬
机构
武汉理工大学计算机科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2017年第6期1574-1579,共6页
基金
湖北省自然科学基金重点项目(2014CFA050)~~
文摘
针对Spark Streaming作为混合大数据计算平台流处理组件时资源调整周期长和不能满足多应用多用户个性化需求的问题,提出了一种多应用下动态资源分配策略(DRAM)。该策略增加了应用全局变量来控制动态资源分配过程。首先,获取历史执行数据反馈和应用全局变量;然后,进行资源增减计算;最后,进行资源增减执行。实验结果表明,所提策略能够有效调整应用资源配额,且在稳定数据流和不稳定数据流两种情况下,其处理延时相比原Spark平台的Streaming策略和Core策略都有所降低;同时该策略也能够提高集群资源利用率。
关键词
SPARK
实时数据流
多应用
动态资源分配
Keywords
Spark
real- time data stream
multi - application
dynamic resource allocation
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 无监督多视图特征选择研究进展
6
作者
吴建生
李艳兰
黄冲
闵卫东
机构
南昌大学数学与计算机学院
南昌大学软件学院
南昌大学信息化办公室
南昌大学元宇宙研究院
江西省智慧城市重点实验室(南昌大学)
出处
《软件学报》
北大核心
2025年第2期886-914,共29页
基金
国家自然科学基金(62066027,62076117)
江西省自然科学基金(20212BAB212011)
江西省智慧城市重点实验室科技创新平台项目(20192BCD40002)。
文摘
多视图数据从不同角度描述数据对象,数据在不同视图中的特征表示之间存在着相关性、互补性及多样性信息.综合利用这些信息对多视图数据处理至关重要.然而,多视图数据通常具有高维度特点,且常含有噪声特征,这为多视图数据的处理与分析带来了许多困难.无监督多视图特征选择无需样本标记信息,从多个视图源的原始高维特征中学习更紧凑、更准确的特征表示以提高数据分析的效果,在多视图数据处理领域起着重要作用.根据已有的无监督多视图特征选择模型的工作机制的异同,对这些模型进行归纳和总结,分析其中存在的不足,并指出未来研究的方向.
关键词
多视图数据
无监督特征选择
聚类
结构保持
流数据
Keywords
multi - view data
unsupervised feature selection
clustering
structure preservation
stream data
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 非平衡数据流在线主动学习方法
被引量:4
7
作者
李艳红
任霖
王素格
李德玉
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2024年第7期1389-1401,共13页
基金
国家自然科学基金(62076158,62072294,41871286)
山西省重点研发计划(201903D421041)资助。
文摘
数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法.
关键词
主动学习
数据流分类
多类非平衡
概念漂移
Keywords
Active learning
data stream classification
multi - class imbalance
concept drift
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 非平衡概念漂移数据流主动学习方法
被引量:2
8
作者
李艳红
王甜甜
王素格
李德玉
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2024年第3期589-606,共18页
基金
国家重点研发项目(2022QY0300-01)
国家自然科学基金(62076158)
山西省基础研究计划项目(202203021221001)资助。
文摘
数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真实场景下是不现实的.此外,真实数据流可能表现出较高且不断变化的类不平衡比率,会进一步增加数据流分类任务的复杂性.为此,提出一种非平衡概念漂移数据流主动学习方法 (Active learning method for imbalanced concept drift data stream, ALM-ICDDS).定义基于多预测概率的样本预测确定性度量,提出边缘阈值矩阵的自适应调整方法,使得标签查询策略适用于类别数较多的非平衡数据流;提出基于记忆强度的样本替换策略,将难区分、少数类样本和代表当前数据分布的样本保存在记忆窗口中,提升新基分类器的分类性能;定义基于分类精度的基分类器重要性评价及更新方法,实现漂移后的集成分类器更新.在7个合成数据流和3个真实数据流上的对比实验表明,提出的非平衡概念漂移数据流主动学习方法的分类性能优于6种概念漂移数据流学习方法.
关键词
数据流分类
主动学习
概念漂移
多类不平衡
Keywords
data stream classification
active learning
concept drift
multi - class imbalance
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 挖掘多数据流的异步偶合模式的抗噪声算法
被引量:6
9
作者
陈安龙
唐常杰
元昌安
彭京
胡建军
机构
四川大学计算机学院
出处
《软件学报》
EI
CSCD
北大核心
2006年第8期1753-1763,共11页
基金
国家自然科学基金
国家教育部博士点基金~~
文摘
挖掘多数据流的异步偶合模式是具有挑战性的工作.主要的研究工作包括:(1)研究Haar小波滤波技术在挖掘流数据的异步偶合模式中的应用;(2)引入小波系数序列来度量数据流的异步局域偶合度;证明了一系列定理,保证了度量方法的正确性;(3)设计了环形滑动窗口和挖掘异步偶合模式的抗噪声增量算法,其时间复杂性小于O(n2);(4)使用真实数据进行模拟实验,验证了算法的有效性.
关键词
多数据流
异步偶合模式
HAAR小波
环形滑动窗口
Keywords
multi - data stream
asynchronous coincidence pattern
Haar wavelet
loop sliding window
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于嵌入式平台的公交车辆监控系统
被引量:8
10
作者
林绿洲
陆起涌
田小芳
杨迎新
机构
复旦大学电子工程系
出处
《电讯技术》
2006年第3期78-81,共4页
基金
2004年上海市经委引进技术的吸收与创新计划项目(04-11-4)
文摘
系统基于ARM9嵌入式软硬件平台,整合了GPS(全球定位系统)、GPRS(通用无线分组业务)以及多数据流传感器,实现对公交车辆位置、温度、人数等数据的采集、传输及反馈,提高了公交系统调度效率和增强了安全性。介绍了系统的构成,并给出软硬件的设计方案。
关键词
公交监控系统
ARM平台
GPS
GPRS
多数据流
Keywords
bus supervisory system
ARM platform
GPS
GPRS
multi - data - stream
分类号
TN919.85
[电子电信—通信与信息系统]
U491
[交通运输工程—交通运输规划与管理]
题名 基于负载均衡的随机作业流密码服务调度算法
被引量:5
11
作者
李莉
史国振
耿魁
董秀则
李凤华
机构
西安电子科技大学通信工程学院
北京电子科技学院电子信息工程系
北京电子科技学院信息安全系
中国科学院信包工程研究所信息安全国家重点实验室
中国科学院大学网络空间安全学院
出处
《通信学报》
EI
CSCD
北大核心
2018年第6期11-19,共9页
基金
国家重点研发计划基金资助项目(No.2016YFB0800304)
北京市自然科学基金资助项目(No.4152048)
文摘
针对安全领域业务流并行处理系统面临数据密码服务请求多样,串行工作模式和并行工作模式交叉,不同业务的数据流相互交叉的现状以及服务响应的高速、高可靠性需求的问题,为了提高多密码算法并行处理的效率,以负载均衡为调度目标,在基于业务标识的分层硬件调度方法 HHS-ACDID基础上,综合考虑算法处理节点的存储容量和处理速度,设计一种同时支持非关联任务和关联任务的负载均衡作业调度算法,实现了高速的密码处理吞吐率。仿真结果表明,该算法能够完成对数据流系统的动态调度并且得到较优的负载均衡效果,与HHS-ACDID相比,执行效率提高12%左右。
关键词
作业调度
并行处理
负载均衡
多密码算法
数据流
Keywords
job stream scheduling
parallel processing
load balancing
multi - cryptography
data stream
分类号
TP393.2
[自动化与计算机技术—计算机应用技术]
题名 基于多维数据流挖掘技术的入侵检测模型与算法
被引量:25
12
作者
毛国君
宗东军
机构
北京工业大学计算机学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2009年第4期602-609,共8页
基金
国家自然科学基金项目(60873145)
国家"九七三"重点基础研究发展计划基金项目(2007CB311100)~~
文摘
网络访问数据有着数据流的高速、无穷达到的特点,所以利用传统多遍扫描数据库的挖掘技术来构建入侵检测模型是不可行的.针对网络访问数据流的特点,提出了一种基于多维数据流挖掘技术的入侵检测模型.此模型将传统的误用检测和异常检测两种入侵检测方法进行有机融合,因此能够克服目前广泛使用的误用检测方法无法检测新的攻击类型的缺点,并且也能够保持检测的高效性.网络访问数据记录的结构是复杂的,一个访问行为总是联系到许多属性,所以分析的难度很大.因此,引入多维频度等概念来解决网络数据流的模式表示和生成问题.同时,针对多维频度模式的特点,提出了一种新型数据结构MaxFP-Tree.在MaxFP-Tree的基础上,给出了一种高效的挖掘网络访问数据流的学习算法MaxFPinNDS.MaxFPinNDS采用衰减机制挖掘,可以快速地形成一个数据流的最近时期数据所隐含的最大频繁项目集.实验表明,设计的入侵检测模型是有效的.
关键词
多维数据流
入侵检测
异常检测
误用检测
最大频繁项集
Keywords
multi - dimension data stream
intrusion detection
anomaly detection
misuse detection
maximal frequent itemset
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 基于多帧数据的目标分群算法
被引量:8
13
作者
龙真真
张策
吴伟胜
刘飞裔
机构
国防科技大学信息系统与管理学院系统工程系
空军装备研究院
中国华阴兵器试验中心
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第23期168-171,共4页
文摘
针对在多帧数据条件下的目标分群问题,提出一种基于数据流聚类的动态目标分群算法TG-Stream,该算法由在线和离线2个部分组成。在线部分采用临时存储结构(TSS)和金字塔时间框架保存侦察数据集的概要信息,离线部分采用CNM算法对时间框架的信息进行聚类,最终得到分群的结果。实验结果表明,TG-Stream具有灵活的精度和效率平衡性,能较好地满足决策辅助系统处理实时信息的需要。
关键词
目标分群
多帧数据
数据流聚类
态势估计
Keywords
target grouping
multi - frame data
data stream clustering
situation assessment
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP311
[自动化与计算机技术—计算机软件与理论]
题名 面向大数据流的多任务加速在线学习算法
被引量:11
14
作者
李志杰
李元香
王峰
匡立
机构
软件工程国家重点实验室(武汉大学)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第11期2545-2554,共10页
基金
国家自然科学基金项目(61070009
61103125)
国家"八六三"高技术研究发展计划基金项目(2007AA01Z290)
文摘
多任务在线学习框架采用直接数据处理的流式计算模式,是大数据流分析很有前途的一种工具.然而目前的多任务在线学习算法收敛率低,仅为O(1/T1/2),T为算法迭代次数.提出一种新颖的多任务加速在线学习算法ADA-MTL(accelerated dual averaging method for multi-task learning),在保持多任务在线学习快捷计算优势的基础上,达到最优收敛率O(1/T2).对多任务权重学习矩阵Wt的迭代闭式解表达式进行了推导,对提出算法的收敛性进行了详细的理论分析.实验表明,提出的多任务加速在线学习算法能够更好地保障大数据流处理的实时性和可伸缩性,有较广泛的实际应用价值.
关键词
大数据流
多任务
加速
在线学习
收敛分析
Keywords
big data stream
multi - task
accelerated
online learning
convergence analysis
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 面向大数据流的半监督在线多核学习算法
被引量:8
15
作者
张钢
谢晓珊
黄英
王春茹
机构
广东工业大学自动化学院
出处
《智能系统学报》
CSCD
北大核心
2014年第3期355-363,共9页
基金
国家自然科学基金资助项目(81373883)
文摘
在机器学习中,核函数的选择对核学习器性能有很大的影响,而通过核学习的方法可以得到有效的核函数。提出一种面向大数据流的半监督在线核学习算法,通过当前读取的大数据流片段以在线方式更新当前的核函数。算法通过大数据流的标签对核函数参数进行有监督的调整,同时以无监督的方式通过流形学习对核函数参数进行修改,以使得核函数所体现的等距面尽可能沿着数据的某种低维流形分布。算法的创新性在于能同时进行有监督和无监督的核学习,且不需要对历史数据进行再次扫描,有效降低了算法的时间复杂度,适用于在大数据和高速数据流环境下的核函数学习问题,其对无监督学习的支持有效解决了大数据流中部分标记缺失的问题。在MOA生成的人工数据集以及UCI大数据分析的基准数据集上进行算法有效性的评估,其结果表明该算法是有效的。
关键词
大数据流
在线多核学习
流形学习
数据依赖核
半监督学习
Keywords
big data stream
online multi - kernel learning
manifold learning
data - dependent kernel
semi- supervised learning
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 噪声自适应的多数据流复合子带语音识别方法
被引量:3
16
作者
张军
韦岗
机构
华南理工大学电信学院
出处
《电子与信息学报》
EI
CSCD
北大核心
2006年第7期1183-1187,共5页
基金
国家自然科学青年基金(60502041)
广东省自然科学博士启动基金(65300146)资助课题
文摘
首先针对现有丢失数据语音识别技术中的边缘化(marginalisation)技术在特征运用上的局限,提出了一种倒谱特征分量的可靠性估计方法,将边缘化技术推广到常用的倒谱语音识别系统中;然后利用基于全带和子带倒谱特征的边缘化识别器在不同噪声中的互补性能,提出了一种噪声自适应的多数据流复合子带语音识别方法。实验结果表明,所提识别方法可以自适应地选出全带和子带数据流中受噪声影响较小者并以之为主要依据进行识别,有效地提高了识别系统在多变噪声环境中的鲁棒性。
关键词
语音识别
丢失数据
边缘化
多数据流
复合子带
Keywords
Speech recognition, Missing data , Marginalisation, multi - stream , Hybrid sub- band
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
题名 基于数据流多维分析的可疑金融交易动态识别
被引量:3
17
作者
尹为
张成虎
甘凯
机构
西安交通大学经济与金融学院
出处
《北京理工大学学报(社会科学版)》
CSSCI
2013年第5期52-59,共8页
基金
国家自然科学基金资助项目"基于数据挖掘的可疑金融交易识别研究"(70771087)
教育部社科规划基金资助项目"我国商业银行反洗钱有效性及其评价研究"(12YJA790184)
文摘
动态识别是改进我国目前可疑金融交易识别监测覆盖面不足和识别实时性较差的有效方法。针对动态识别的具体实现问题,基于数据流多维分析设计一种可疑突变特征动态识别算法。该算法根据金融交易数据流的特点,在筛选交易记录关键属性、构建数据流立方体结构以及确定通用路径的基础上,运用突变比量动态缩减时间框架,在不同维度及概念层上计算和维护立方体中数据单元的度量参数与突变比量参数,并以此为依据发现并识别出隐匿于数据流中的可疑突变特征。仿真结果表明:算法能够在有限的存储空间内完成对大规模金融交易数据流的实时处理,计算结果能够有效反映交易记录中频度、金额、类型等方面的可疑突变情况,从而达到动态识别可疑金融交易的目的。
关键词
数据流
多维分析
可疑金融交易
反洗钱
Keywords
data stream
multi - dimension analysis
suspicious financial transactions
anti- money laundering
分类号
F832.29
[经济管理—金融学]
题名 基于HBase的交通流数据实时存储系统
被引量:26
18
作者
陆婷
房俊
乔彦克
机构
北方工业大学云计算研究中心
出处
《计算机应用》
CSCD
北大核心
2015年第1期103-107,135,共6页
基金
北京市自然科学基金重点项目(4131001)
北京市属高等学校创新团队建设与教师职业发展规划项目(IDHT20130502)
+1 种基金
北大方正集团有限公司数字出版技术国家重点实验室开放课题
北方工业大学科研启动基金资助项目
文摘
交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题。针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统。该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中。实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能。
关键词
流数据
多源缓冲区
数据切分
一致性哈希算法
实时存储
HBASE
Keywords
stream ing data
multi - source buffer
data sharding
consistent Hash algorithm
real- time storage
HBase
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于相对密度的数据流模糊聚类算法
被引量:2
19
作者
刘青宝
王文熙
马德良
机构
国防科学技术大学信息系统与管理学院
出处
《计算机科学》
CSCD
北大核心
2010年第8期194-197,共4页
基金
国家自然科学基金项目:模糊
动态多维数据建模理论与方法研究(70771110)资助
文摘
提出的基于相对密度的数据流模糊聚类算法结合了相对密度聚类和模糊聚类的优点,能形成任意形状、多密度分辨率的层次聚类结果。同时,利用微簇空间位置重叠关系,定义了微簇集合间的差运算,从而有效地支持了用户指定时间窗口内的数据流聚类要求。通过与CluStream算法在聚类质量和处理时间两个方面的比较分析,发现基于相对密度的数据流模糊聚类算法具有明显的优势。
关键词
多分辨率聚类
模糊聚类
数据流
相对密度
Keywords
multi - resolution clustering,Fuzzy clustering,data stream ,Relative density
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 数据流查询处理中一种共享的分级窗口维护策略
被引量:1
20
作者
袁锋
宋宝燕
武珊珊
于亚新
于戈
机构
东北大学信息科学与工程学院
辽宁大学信息科学与技术学院辽宁沈阳
出处
《小型微型计算机系统》
CSCD
北大核心
2005年第12期2227-2232,共6页
基金
国家自然科学基金(60473073)资助
辽宁省自然科学基金项目(20022027)资助
+1 种基金
国家"八六三"高技术计划CIMS主题(2004AA1Z2060)资助
教育部优秀青年教师科研教育奖励计划资助.
文摘
由于数据流具有无界的特性,数据流系统中的查询多为带有窗口的查询,对带有窗口的查询,现有方法常由操作符直接维护窗口,但操作符的类型及排列方式可能会导致窗口难以维护,且冗余度较大.因此提出一种查询处理中的分级窗口维护策略,将窗口分为流窗口和操作符窗口,以流窗口为主并控制操作符窗口的维护,使查询中的窗口保持一致,解决了窗口维护问题,并且符合流查询语言的语义,各级窗口中的数据通过共享来解决内存消耗问题.
关键词
数据流
分级窗口查询处理
操作符窗口
流窗口
Keywords
data stream
multi - level window
query processing
operator window
stream window
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]