期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
HiBase:一种基于分层式索引的高效HBase查询技术与系统 被引量:56
1
作者 葛微 罗圣美 +6 位作者 周文辉 赵頔 唐云 周娟 曲文武 袁春风 黄宜华 《计算机学报》 EI CSCD 北大核心 2016年第1期140-153,共14页
大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力.Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase只有主... 大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力.Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase只有主键索引,不支持非主键索引,这导致HBase的数据查询效率较低,难以满足数据实时或准实时查询需求.为此,在HBase基础上提供面向非主键的快速查询能力,是目前Hadoop环境下急需研究和解决的一个重要问题.该文研究提出了一种基于分层式HBase非主键索引的查询模型和方法,该模型和方法首先建立基于HBase的持久性索引.然后,为了利用内存提升查询性能,该文进一步提出了一种索引热点数据缓存技术和一种高效的热度累积缓存替换策略,以降低对HBase索引表的磁盘访问开销.热度累积缓存替换策略克服了最近最少使用(LRU)算法的局限性,考虑数据访问的累积热度和时间局部特性,从而更准确地捕获数据访问的特征.为了使索引热点数据缓存内存层具有良好的可扩展性,HiBase设计了基于一致性哈希的分布式内存缓存,支持高效的基于非主键的单点查询和范围查询.最终,该文设计实现了完整的分层式索引和查询系统HiBase.在千万至十亿条记录规模数据集上的测试结果表明,HiBase冷查询响应时间比标准HBase快65倍(大结果集)到3000多倍(小结果集);而引入基于查询热度累积算法的内存索引缓存方法后,热查询性能可在HiBase冷查询基础上再提升5~15倍,使得总体查询性能比标准HBase快300多倍(大结果集)到1.7万倍(小结果集),比开源的Hindex系统快5~20倍. 展开更多
关键词 HBASE 非主键索引 查询处理 分层式索引 缓存替换策略 大数据
在线阅读 下载PDF
轨迹大数据:数据、应用与技术现状 被引量:55
2
作者 许佳捷 郑凯 +3 位作者 池明旻 朱扬勇 禹晓辉 周晓方 《通信学报》 EI CSCD 北大核心 2015年第12期97-105,共9页
移动互联技术的飞速发展催生了大量的移动对象轨迹数据。这些数据刻画了个体和群体的时空动态性,蕴含着人类、车辆、动物的行为信息,对交通导航、城市规划、车辆监控等应用具有重要的价值。为了实现有效的轨迹数据价值提取,近年来学术... 移动互联技术的飞速发展催生了大量的移动对象轨迹数据。这些数据刻画了个体和群体的时空动态性,蕴含着人类、车辆、动物的行为信息,对交通导航、城市规划、车辆监控等应用具有重要的价值。为了实现有效的轨迹数据价值提取,近年来学术界和工业界针对轨迹管理问题开展了大量研究工作,包括轨迹数据预处理,以解决数据冗余高、精度差、不一致等问题;轨迹数据库技术,以支持有效的数据组织和高效的查询处理;轨迹数据仓库,支持大规模轨迹的统计、理解和分析;最后是知识提取,从数据中挖掘有价值的模式与规律。因此,综述轨迹大数据分析,从企业数据、企业应用、前沿技术这3个角度揭示该领域的现状。 展开更多
关键词 时空数据库 轨迹数据管理 数据索引 查询优化
在线阅读 下载PDF
基于自适应归一化RBF网络的Q-V值函数协同逼近模型 被引量:9
3
作者 刘全 肖飞 +3 位作者 傅启明 伏玉琛 周小科 朱斐 《计算机学报》 EI CSCD 北大核心 2015年第7期1386-1396,共11页
径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络... 径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络逼近模型的"灾难性扰动"问题,文中提出了一种基于自适应归一化RBF(ANRBF)网络的Q-V值函数协同逼近模型及对应的协同逼近算法——QV(λ).该算法对由RBFs提取得到的特征向量进行归一化处理,并在线自适应地调整ANRBF网络隐藏层节点的个数、中心及宽度,可以有效地提高逼近模型的抗干扰性和灵活性.协同逼近模型中利用Q和V值函数协同塑造TD误差,在一定程度上利用了环境模型的先验知识,因此可以有效地提高算法的收敛速度和初始性能.从理论上分析了QV(λ)算法的收敛性,并对比其他的函数逼近算法,通过实验验证了QV(λ)算法具有较优的性能. 展开更多
关键词 强化学习 函数逼近 径向基函数 灾难性扰动 协同逼近
在线阅读 下载PDF
一种浮动车技术的道路行程时间估计方法 被引量:3
4
作者 宋承波 燕雪峰 《小型微型计算机系统》 CSCD 北大核心 2018年第9期2098-2102,共5页
针对现有基于浮动车技术的道路行程时间估计方法无法满足在不同浮动车占有率情况下对于估计精度要求的不足,利用前一时刻平均速度的稳定性和当前浮动车采集的平均速度精确性的优点,根据浮动车占有率动态分配权重,实现了较为精确的路段... 针对现有基于浮动车技术的道路行程时间估计方法无法满足在不同浮动车占有率情况下对于估计精度要求的不足,利用前一时刻平均速度的稳定性和当前浮动车采集的平均速度精确性的优点,根据浮动车占有率动态分配权重,实现了较为精确的路段平均速度估计,从而实现了对路段行程时间的较为精确的估计.进而,针对在浮动车占有率高于预定值的情境下,提出的方法所存在的因浮动车采集的平均速度波动性导致的估计波动问题,本文提出基于加权融合的估计波动性平滑方法,使用加权平均的融合方法将基于浮动车的估计结果和固定检测器估计结果进行融合,有效降低估计波动.实验表明,本文提出的基于浮动车技术的道路行程时间估计方法在不同的浮动车占有率情况下估计结果的平均相对误差不超过0.7%,具有较高的估计精度,因此可适用于不同浮动车占有率情况下的道路行程时间估计. 展开更多
关键词 行程时间估计 浮动车技术 加权平均融合
在线阅读 下载PDF
融合用户社会地位和矩阵分解的推荐算法 被引量:33
5
作者 余永红 高阳 +1 位作者 王皓 孙栓柱 《计算机研究与发展》 EI CSCD 北大核心 2018年第1期113-124,共12页
随着社交网络服务的日益流行,社交网络平台为推荐算法提供了丰富的额外信息.假设朋友之间共享更多的共同偏好并且用户往往易于接受来自朋友的推荐,越来越多的推荐系统利用社交网络中用户之间的信任关系来改进传统推荐算法的性能.然而,... 随着社交网络服务的日益流行,社交网络平台为推荐算法提供了丰富的额外信息.假设朋友之间共享更多的共同偏好并且用户往往易于接受来自朋友的推荐,越来越多的推荐系统利用社交网络中用户之间的信任关系来改进传统推荐算法的性能.然而,现有基于社交网络推荐算法忽略了2个问题:1)在不同的领域中,用户信任不同的朋友;2)由于用户在不同的领域内具有不同的社会地位,因此,用户在不同的领域内受朋友的影响程度是不同的.首先利用整体的社交网络结构信息和用户的评分信息推导特定领域社交网络结构,然后利用PageRank算法计算用户在特定领域的社会地位,最后提出了一种融合用户社会地位信息的矩阵分解推荐算法.在真实数据集上的实验结果表明:融合用户地位信息的矩阵分解推荐算法的性能优于传统的基于社交网络推荐算法. 展开更多
关键词 用户社会地位 矩阵分解 推荐算法 PAGERANK算法 社交网络
在线阅读 下载PDF
基于Ranking的泊松矩阵分解兴趣点推荐算法 被引量:17
6
作者 余永红 高阳 王皓 《计算机研究与发展》 EI CSCD 北大核心 2016年第8期1651-1663,共13页
随着基于位置社交网络(location-based social network,LBSN)的发展,兴趣点推荐成为满足用户个性化需求、减轻信息过载问题的重要手段.然而,已有的兴趣点推荐算法存在如下的问题:1)多数已有的兴趣点推荐算法简化用户签到频率数据,仅使... 随着基于位置社交网络(location-based social network,LBSN)的发展,兴趣点推荐成为满足用户个性化需求、减轻信息过载问题的重要手段.然而,已有的兴趣点推荐算法存在如下的问题:1)多数已有的兴趣点推荐算法简化用户签到频率数据,仅使用二进制值来表示用户是否访问一个兴趣点;2)基于矩阵分解的兴趣点推荐算法把签到频率数据和传统推荐系统中的评分数据等同看待,使用高斯分布模型建模用户的签到行为;3)忽视用户签到数据的隐式反馈属性.为解决以上问题,提出一个基于Ranking的泊松矩阵分解兴趣点推荐算法.首先,根据LBSN中用户的签到行为特点,利用泊松分布模型替代高斯分布模型建模用户在兴趣点上签到行为;然后采用BPR(Bayesian personalized ranking)标准优化泊松矩阵分解的损失函数,拟合用户在兴趣点对上的偏序关系;最后,利用包含地域影响力的正则化因子约束泊松矩阵分解的过程.在真实数据集上的实验结果表明:基于Ranking的泊松矩阵分解兴趣点推荐算法的性能优于传统的兴趣点推荐算法. 展开更多
关键词 基于位置社交网络 兴趣点推荐 泊松矩阵分解 BPR标准 地域影响力
在线阅读 下载PDF
基于SparkR的分类算法并行化研究 被引量:14
7
作者 刘志强 顾荣 +1 位作者 袁春风 黄宜华 《计算机科学与探索》 CSCD 北大核心 2015年第11期1281-1294,共14页
近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设... 近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine,SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于Spark R的并行化分类算法与Hadoop Map Reduce的方案相比,速度上提升了8倍左右。 展开更多
关键词 SparkR 分类算法 并行化 局部迭代 内存计算
在线阅读 下载PDF
基于主曲线的遥感图像河岸线提取 被引量:8
8
作者 郭芸 王宜怀 +2 位作者 刘纯平 龚声蓉 季怡 《通信学报》 EI CSCD 北大核心 2016年第11期80-89,共10页
针对遥感图像中河岸线提取存在不光滑、容易发生间断等问题,提出一种基于主曲线的河岸线提取方法。该方法在学习过程中结合多边形线(PL,polygonal line)算法和误差反向传播(BP,back propagation)算法,首先学习河流中心骨架主曲线表达,... 针对遥感图像中河岸线提取存在不光滑、容易发生间断等问题,提出一种基于主曲线的河岸线提取方法。该方法在学习过程中结合多边形线(PL,polygonal line)算法和误差反向传播(BP,back propagation)算法,首先学习河流中心骨架主曲线表达,然后再根据提出的左右河岸点集分割方法获得图像中河流的左岸点集和右岸点集,分别学习左右河岸线主曲线的光滑参数表达,最终实现遥感图像中河流中心骨架和河岸线的矢量化描述。主曲线表达解决了河岸线不光滑问题,而左右河岸线分开学习有效解决了因河道窄而导致河岸线间断的问题。在实际遥感图像河流提取实验中,与现有几种河岸线提取方法的对比分析结果表明:基于主曲线的河岸线提取方法提取的河岸线具有更好的光滑性,可以较好地解决在河流较窄处发生间断的问题,所得的河岸线矢量化描述更便于存储和重建,并可作为河流区域的形状特征用于检测与识别。 展开更多
关键词 遥感图像 河岸线提取 主曲线 PL算法 BP算法
在线阅读 下载PDF
SCoS:基于Spark的并行谱聚类算法设计与实现 被引量:13
9
作者 朱光辉 黄圣彬 +1 位作者 袁春风 黄宜华 《计算机学报》 EI CSCD 北大核心 2018年第4期868-885,共18页
谱聚类是一种比传统聚类算法更为高效的算法,其建立在谱图理论基础上,并将聚类问题转化为图的最优划分问题.与传统k-means算法不同的是,谱聚类算法不仅能够在任意形状的样本空间上实现聚类,而且可以收敛至全局最优解.然而,谱聚类算法的... 谱聚类是一种比传统聚类算法更为高效的算法,其建立在谱图理论基础上,并将聚类问题转化为图的最优划分问题.与传统k-means算法不同的是,谱聚类算法不仅能够在任意形状的样本空间上实现聚类,而且可以收敛至全局最优解.然而,谱聚类算法的计算开销较大,不仅需要计算任意两个样本之间的相似性,而且还需要计算Laplacian矩阵的特征向量.因此,在大规模数据场景下,谱聚类算法存在计算耗时过长甚至无法完成计算的问题.为了解决谱聚类算法在大规模数据场景下的计算性能问题,使得谱聚类算法能够应用在大数据集上,文中基于Apache Spark分布式并行计算框架研究并实现了大规模并行谱聚类算法SCoS,对算法流程中的每个计算步骤进行了并行化.具体的,SCoS主要实现了相似度矩阵构建与稀疏化过程的并行化、Laplacian矩阵构建与正规化过程的并行化、正规化Laplacian矩阵特征向量计算的并行化以及k-means聚类的并行化.为了降低谱聚类算法中大规模样本相似性计算的开销,SCoS采用了基于多轮迭代的并行计算方式实现大规模样本之间的相似性计算.针对大规模谱聚类算法中耗时较长的Laplacian矩阵特征向量求解问题,SCoS基于ScaLAPACK实现了特征向量的并行化求解,同时文中也实现了近似特征向量计算算法,并且对比分析了精确特征向量计算与近似特征向量计算对于谱聚类算法的性能影响.为了进一步提升大规模谱聚类算法的性能,SCoS采取了矩阵稀疏化表示与存储、Laplacian矩阵乘法优化以及k-means聚类中距离计算放缩剪枝等多种优化手段,尽可能地减少计算开销、存储空间开销以及数据传输开销.实验表明,SCoS不仅在聚类效果上要优于传统的聚类算法,而且具有较高的运行效率,特别是在大规模数据集下,仍具有较高的计算性能,并表现出了良好的数据可扩展性和系统可扩展性. 展开更多
关键词 谱聚类 并行化 相似性度量 分布式计算 APACHE SPARK
在线阅读 下载PDF
支持室内障碍空间的DSP-Topk查询优化算法研究 被引量:3
10
作者 李博涵 张潮 +3 位作者 李东静 许建秋 夏斌 秦小麟 《计算机研究与发展》 EI CSCD 北大核心 2017年第3期557-569,共13页
多目标优化查询是目前移动对象数据管理的研究热点.多目标优化查询过程中,用户关心的目标对象属性可能依赖于其他移动对象,因此移动对象之间的相互影响将导致目标对象属性存在不确定性.已有的多目标优化算法需要遍历所有目标对象,且不... 多目标优化查询是目前移动对象数据管理的研究热点.多目标优化查询过程中,用户关心的目标对象属性可能依赖于其他移动对象,因此移动对象之间的相互影响将导致目标对象属性存在不确定性.已有的多目标优化算法需要遍历所有目标对象,且不能有效支持目标对象属性的动态变化.基于以上问题,提出了一种有效的应用于障碍空间的多目标优化算法DSP-Topk(dynamic and support pruning Topk),该算法采用可视区域模型处理障碍空间中移动对象的距离计算,利用基于最大夹角差的可视区域方法,提高了计算距离的效率.进而,利用动态调整机制解决目标对象属性的不确定性,预处理的裁剪策略提高了算法效率.实验结合商场真实商品数据集进行测试,与已有的Topk和DS-Topk算法对比表明:所提算法在查询效率上有显著提高,验证了算法的有效性. 展开更多
关键词 移动对象 多目标优化 不确定性 裁剪 动态调整
在线阅读 下载PDF
Goldfish:基于矩阵分解的大规模RDF数据存储与查询系统 被引量:11
11
作者 顾荣 仇红剑 +3 位作者 杨文家 胡伟 袁春风 黄宜华 《计算机学报》 EI CSCD 北大核心 2017年第10期2212-2230,共19页
随着互联网应用的迅猛发展和语义网技术研究的深入,语义数据呈现出爆炸性增长趋势.一方面,对于语义数据实现高效存储和查询是语义网应用的重要基础,越来越多的语义应用可以依赖于此以提供更好的服务;另一方面,语义数据的爆炸性增长,对... 随着互联网应用的迅猛发展和语义网技术研究的深入,语义数据呈现出爆炸性增长趋势.一方面,对于语义数据实现高效存储和查询是语义网应用的重要基础,越来越多的语义应用可以依赖于此以提供更好的服务;另一方面,语义数据的爆炸性增长,对大数据环境下的语义数据的存储与查询技术提出了新的挑战.传统的基于关系型数据库的语义数据与查询系统已难以满足大规模语义数据的存储与查询需求.该文针对大规模RDF数据的存储与查询问题,以OpenRDF Sesame框架为基础,采用分布式分层式存储架构,提出并实现了属性表存储结构来进行语义数据的存储.在此基础上,针对布尔矩阵分解算法在对大规模语义数据构造属性表较慢的问题,基于Spark分布式计算框架提出并实现了并行化频繁项集挖掘算法求解大规模矩阵分解,以加速属性表的构造过程.并且,在查询层增加了基于哈希转换等查询优化.最后,基于该文所提出的索引结构和优化方法设计实现了原型系统Goldfish,并在大规模合成和真实数据集上进行了实验对比.结果表明,Goldfish原型系统比Rainbow系统查询性能平均提升约6倍,比Jena-HBase查询性能平均提升约500倍,比基于MapReduce的RDF查询系统SHARD性能平均提升约1200倍. 展开更多
关键词 大规模RDF存储 矩阵分解 分层式存储 大数据 语义网 SPARK
在线阅读 下载PDF
基于分布内存的层次短语机器翻译并行化算法 被引量:3
12
作者 赵博 黄书剑 +2 位作者 戴新宇 袁春风 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2014年第12期2724-2732,共9页
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联... 近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联机翻译时更为突出.为了克服单机机器翻译算法在这方面的局限性,提高大规模统计机器翻译处理的计算性能,面向一个实际的联机翻译系统,提出了一个分布式和并行化翻译解码算法框架,对整个大规模语言模型和翻译模型同时采用分布式存储和并行化查询机制,在此基础上进一步研究实现完整的翻译解码并行化算法.研究实现了一个基于分布式内存数据库的层次短语并行化机器翻译解码器,该解码器使用分布式内存数据库存储和查询大数据量的翻译模型表和语言模型表,克服了传统的机器翻译系统所面临的内存容量和并发度方面的限制.为了进一步提高并行解码速度,还研究实现了另外3项优化技术:1)将翻译模型表的同步规则和Trie树结构的语言模型表转化为基于内存数据库的"键-值"结构的Hash索引表的方法;2)对Cube-Pruning算法进行了修改使其适用于批量查询;3)采用并优化了批量查询方式减少语言和翻译模型查询时的网络传输开销.所提出的解码算法实现了基于大规模语料统计机器翻译时的快速解码,并具备优异的系统可扩展性.实验结果表明:与单机解码器相比,单句翻译速度可提高2.7倍,批量翻译作业的总体解码性能可提高至少11.7倍,实现了显著的计算性能提升. 展开更多
关键词 统计机器翻译 层次短语 语言模型 翻译模型 并行化解码 分布内存
在线阅读 下载PDF
数据隐私保护的社会化推荐协议 被引量:2
13
作者 刘曙曙 刘安 +4 位作者 赵雷 刘冠峰 李直旭 郑凯 周晓方 《通信学报》 EI CSCD 北大核心 2015年第12期131-138,共8页
基于邻域的社会化推荐需要同时依赖用户的历史行为数据和完善的社交网络拓扑图,但通常这些数据分别属于不同平台,如推荐系统服务提供商和社交网络服务提供商。出于维护自身数据价值及保护用户隐私的考虑,他们并不愿意将数据信息提供给... 基于邻域的社会化推荐需要同时依赖用户的历史行为数据和完善的社交网络拓扑图,但通常这些数据分别属于不同平台,如推荐系统服务提供商和社交网络服务提供商。出于维护自身数据价值及保护用户隐私的考虑,他们并不愿意将数据信息提供给其他方。针对这一现象,提出了2种数据隐私保护的社会化推荐协议,可以在保护推荐系统服务提供商和社交网络服务提供商的数据隐私的同时,为用户提供精准的推荐服务。其中,基于不经意传输的社会化推荐,计算代价较小,适用于对推荐效率要求较高的应用;基于同态加密的社会化推荐,安全程度更高,适用于对数据隐私要求较高的应用。在4组真实数据集上的实验表明,提出的2种方案切实可行,用户可以根据自身需求选择合适的方案。 展开更多
关键词 推荐系统 不经意传输 同态加密 Yao’s协议
在线阅读 下载PDF
Android应用中SQL注入漏洞静态检测方法 被引量:9
14
作者 潘秋红 崔展齐 王林章 《计算机科学与探索》 CSCD 北大核心 2018年第8期1225-1237,共13页
随着移动互联网的迅猛发展,基于Android平台的移动终端以及移动应用数量逐年攀升,极大地改变了人们的生活方式。然而,移动应用具有交互复杂、难于调试、版本更新迭代频繁等特点,很多应用没有经过充分检测就投入了使用,致使Android应用... 随着移动互联网的迅猛发展,基于Android平台的移动终端以及移动应用数量逐年攀升,极大地改变了人们的生活方式。然而,移动应用具有交互复杂、难于调试、版本更新迭代频繁等特点,很多应用没有经过充分检测就投入了使用,致使Android应用中各种漏洞导致的故障频发。其中,SQL注入漏洞是一类常见安全漏洞,会引发用户信息泄露、恶意篡改数据库等严重后果。但现有的通用静态分析工具大多无法有效检测Android应用中的SQL注入漏洞。针对这一问题,分析了SQL注入漏洞的代码特征和数据特征,提出了一种基于污点分析的静态检测方法,并在开源工具FindBugs的基础上,实现了原型工具SQLInj。实验结果表明,该方法能有效检测出Android应用中存在的SQL注入漏洞。 展开更多
关键词 SQL注入 静态检测 污点分析 合法性检查
在线阅读 下载PDF
一种基于改进网格多维TTI索引的动态Top-k查询算法 被引量:2
15
作者 邓丹苹 秦小麟 +3 位作者 李博涵 郑伟 刘亮 李雪 《计算机学报》 EI CSCD 北大核心 2019年第8期1827-1844,共18页
Top-k查询是目前海量数据在动态环境中高效处理的重要方法之一.在许多实际应用中,满足用户偏好的top-k查询一般由两个部分组成:选择条件和排序函数.用户可自行设置排序函数,也可选择对不同数据子集进行查询.在传统数据库领域中已经对to... Top-k查询是目前海量数据在动态环境中高效处理的重要方法之一.在许多实际应用中,满足用户偏好的top-k查询一般由两个部分组成:选择条件和排序函数.用户可自行设置排序函数,也可选择对不同数据子集进行查询.在传统数据库领域中已经对top-k算法进行了深入的研究,但是现有的方法不适用于大量目标对象的属性值发生动态变化的情况.在查询过程中由于目标对象的属性值发生改变可能导致查询结果的改变,从而对算法性能有更高的要求.围绕动态top-k计算问题,在网格索引的基础上提出了TTI索引,通过TTI索引中的概要信息高效计算网格k支配能力并划分影响区和自由区.根据划分的区域裁剪数据集并降低数据动态变化时需重新计算发生的概率.实验中采用多种数据集进行测试,分别与top-k、RankCube和CIA算法进行了比较.实验结果验证了算法的有效性,实验数据表明在静态情况下,该文算法的查询效率可比传统top-k算法最多快至8倍,动态情况下可比传统top-k算法最多快10倍. 展开更多
关键词 TOP-K查询 网格索引 分区 概要 动态
在线阅读 下载PDF
基于Spark的大规模语义规则后向链推理系统 被引量:6
16
作者 顾荣 王善永 +2 位作者 郭晨 袁春风 黄宜华 《中文信息学报》 CSCD 北大核心 2018年第3期120-134,共15页
近年来,语义网数据快速增长,适合于处理静态小规模语义数据的前向链语义推理技术暴露出了需对数据进行频繁更新等问题。面对大规模动态语义网数据,对数据更新不敏感的后向链语义推理开始成为新的研究热点。后向链语义推理由查询目标驱动... 近年来,语义网数据快速增长,适合于处理静态小规模语义数据的前向链语义推理技术暴露出了需对数据进行频繁更新等问题。面对大规模动态语义网数据,对数据更新不敏感的后向链语义推理开始成为新的研究热点。后向链语义推理由查询目标驱动,在查询时根据规则集推理出查询结果。后向链语义推理具有推理过程复杂、规则扩展深度大等特点,在大规模语义数据上推理的效率和可扩展性上有一定的挑战。该文立足于已有的后向链推理技术,详细分析了语义推理规则集的特点,并结合当前主流的大数据处理平台Spark,设计了一套较为高效并且可扩展的大规模并行化语义规则后向链推理系统。该文的主要研究工作分为三个部分:(1)采用预计算本体数据闭包的方法,避免了本体模式在实时推理阶段的重复推理;(2)在后向链语义推理的逆向推理和查询阶段设计了优化措施,进一步提高了推理效率;(3)设计实现了一种基于Spark平台的大规模分布式RDFS/OWL后向链语义推理系统。实验数据显示,该文提出的RDFS/OWL后向链语义推理系统在合成数据集LUBM和真实数据集DBpedia上都表现出了良好的推理性能,在亿条三元组上的推理开销是几秒到几十秒,并且表现出了良好的数据可扩展性和节点可扩展性。 展开更多
关键词 语义推理 后向链推理 并行化
在线阅读 下载PDF
南沙他国侵占岛礁战略价值及空间格局评价 被引量:1
17
作者 闵开付 程亮 +3 位作者 周晓 夏南 李宁 李满春 《热带地理》 CSCD 北大核心 2020年第4期684-693,共10页
从建岛潜力、岛礁辐射能力和岛礁承载能力3个方面选取26个指标,采用主客观综合赋权法确定各因子权重,利用线性加权法获得被越南、菲律宾、马来西亚、文莱等国所侵占的南沙44个岛礁的战略价值,并对结果进行空间插值,分析其空间格局特征... 从建岛潜力、岛礁辐射能力和岛礁承载能力3个方面选取26个指标,采用主客观综合赋权法确定各因子权重,利用线性加权法获得被越南、菲律宾、马来西亚、文莱等国所侵占的南沙44个岛礁的战略价值,并对结果进行空间插值,分析其空间格局特征。结果表明:1)被马来西亚侵占的弹丸礁、越南侵占的南威岛、以及菲律宾侵占的中业岛,其战略价值位列前3,评价得分分别为100、98.42和97.09。2)岛礁辐射能力空间分布格局呈现"NW—SE条带式","最高"和"高"等级的区域由研究区西北延伸至东南,然后向东北、西南两侧递减,辐射能力格局中有2个核心区域和2个次级核心区域。承载能力空间分布格局呈现"横向条带式",由北向南越来越低,有1个核心区域和2个次级核心区域。建岛潜力空间分布格局有3个核心区域及2个次级核心区域。3)岛礁战略价值空间分布格局有3个核心区域,分布于研究区中部、北部及南部,与越南、菲律宾、马来西亚密切相关的核心区域各有1个。越南侵占岛礁最多且空间分布较广,有2个次级核心区域也与越南密切相关,越占岛礁若进一步建设,将形成多核心协同的战略格局,需密切关注。 展开更多
关键词 南沙群岛 建岛潜力 他国侵占 战略价值 空间格局
在线阅读 下载PDF
南海海上搜救困难性评价 被引量:5
18
作者 左潇懿 程亮 +2 位作者 楚森森 吴洁 张雪东 《热带地理》 CSCD 北大核心 2022年第7期1138-1147,共10页
为保障船舶海上航行安全,结合GIS与模糊层次分析法,从海上搜救的自然环境和人文搜救力量2个方面选取9个因子建立海上搜救困难性评价模型,对南海海上搜救困难性进行评价。结果表明:1)自然环境影响下,南海海域搜救困难性具有“V”字形分... 为保障船舶海上航行安全,结合GIS与模糊层次分析法,从海上搜救的自然环境和人文搜救力量2个方面选取9个因子建立海上搜救困难性评价模型,对南海海上搜救困难性进行评价。结果表明:1)自然环境影响下,南海海域搜救困难性具有“V”字形分布的特点,由东北向西南难度等级逐渐降低。2)在人文搜救力量影响下,南海海域的搜救困难性整体呈“东北-西南条带式”,难度最大的区域主要位于南海东北―西南的连线上,呈不规则环状向连线两侧递减。3)综合两方面因素,南海部分岛屿周围搜救难度偏高,主要受台风等恶劣天气及远离搜救基地的影响,而远海海域搜救难度在整体上为“东北-西南递减式”空间分布格局,最高和较高的区域由研究区东北延伸至西南,然后向西北、东南两侧递减。总体而言,南海研究区中近21.1%的海域搜救难度≥7级,仍需加强对搜救力量的部署与建设。 展开更多
关键词 南海 海上搜救 搜救困难性评价 模糊层次分析法 自然环境 人文搜救力量
在线阅读 下载PDF
一种高效的保护隐私的轨迹相似度计算框架
19
作者 刘曙曙 刘安 +3 位作者 刘冠峰 李直旭 赵雷 郑凯 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第5期154-161,171,共9页
提出了一种高效的保护隐私的轨迹相似度计算框架.基于安全的同态加密系统和Yao协议,该框架能够确保持有轨迹的两方不能得到除了轨迹相似度以外的其他任何信息,从而同时保护了两方的轨迹数据隐私.该框架针对轨迹相似度计算过程中的不同... 提出了一种高效的保护隐私的轨迹相似度计算框架.基于安全的同态加密系统和Yao协议,该框架能够确保持有轨迹的两方不能得到除了轨迹相似度以外的其他任何信息,从而同时保护了两方的轨迹数据隐私.该框架针对轨迹相似度计算过程中的不同步骤具有不同的计算特点,交替使用同态加密系统和Yao协议,从而有效地提高了性能.实验结果表明本框架与已有的方法相比显著减少了计算开销. 展开更多
关键词 轨迹相似度 隐私保护 同态加密 Yao协议
在线阅读 下载PDF
基于Hadoop的电网数据质量校验方法与验证系统 被引量:8
20
作者 张志亮 孙煜华 +5 位作者 陈承志 龙庆麟 梁国辉 顾荣 杨滨诚 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期134-144,共11页
在诸多电网数据处理应用中,电网数据质量监测是电网大数据处理业务中最重要的一个环节.随着电网数据规模和数据质量校验规则数量和复杂度的不断增大,目前现有的基于传统数据库系统和计算平台的数据质量校验系统的处理能力已经出现严重... 在诸多电网数据处理应用中,电网数据质量监测是电网大数据处理业务中最重要的一个环节.随着电网数据规模和数据质量校验规则数量和复杂度的不断增大,目前现有的基于传统数据库系统和计算平台的数据质量校验系统的处理能力已经出现严重的瓶颈,难以快速完成数据质量的监测和校验,且系统难以扩展,越来越难以满足日常的生产管理和经营决策的需求.大数据技术为解决电网大数据处理提供了良好的技术手段和支撑平台.为此,提出了一种基于大数据的电网数据质量校验解决方案,研究设计了基于Hadoop平台的分布式数据存储管理和并行化校验规则执行技术,选择批量和增量数据质量校验典型场景,进行了验证性研究,设计实现了针对数据校验的索引存储机制,对校验规则相关的属性建立快速索引,并进一步设计实现了基于HBase和MapReduce的并行化校验规则执行算法,使得数据质量校验的处理性能得到显著提升.在此基础上,基于验证性数据集和校验规则实现了一个验证性系统,实验结果表明,所提出的技术方法可以有效地提升数据质量校验处理性能,可满足实时/准实时电网数据数据校验需求,并且提供了一种具有良好可扩展性的系统解决方案. 展开更多
关键词 电网大数据 数据质量 校验规则 索引 并行化算法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部