期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
一种避免数据偏斜的动态Hash连接方法 被引量:1
1
作者 洪晓光 王新军 董继润 《软件学报》 EI CSCD 北大核心 1997年第8期610-614,共5页
本文提出了一种新的动态Hash连接方法──DHJ(dynamichash join),以解决并行数据库连接操作中的数据偏斜现象.为避免目前某些算法提出的预处理中隐含的高额费用,该方法在划分阶段通过增添附加桶的方法来平衡输出,然后依据计算确... 本文提出了一种新的动态Hash连接方法──DHJ(dynamichash join),以解决并行数据库连接操作中的数据偏斜现象.为避免目前某些算法提出的预处理中隐含的高额费用,该方法在划分阶段通过增添附加桶的方法来平衡输出,然后依据计算确认哪些附加桶被映射到处理器上并确定处理器分配,在最后阶段完成连接.本文最后给出了该算法的性能分析. 展开更多
关键词 数据偏斜 动态hash连接法 并行数据库
在线阅读 下载PDF
基于哈希桶的快速三支决策邻域分类器
2
作者 贾润亮 张海玉 《小型微型计算机系统》 北大核心 2025年第4期776-782,共7页
三支决策邻域分类器作为邻域粗糙集的重要扩展,目前已成为数据挖掘中一种有效的分类方法.然而,三支决策邻域分类器当前仍存在两方面的局限,一是获得测试样本邻域类的计算复杂度较高,二是测试样本对于多个最大决策类场景无法确定最终的... 三支决策邻域分类器作为邻域粗糙集的重要扩展,目前已成为数据挖掘中一种有效的分类方法.然而,三支决策邻域分类器当前仍存在两方面的局限,一是获得测试样本邻域类的计算复杂度较高,二是测试样本对于多个最大决策类场景无法确定最终的类别标签,为了解决此问题,本文提出一种基于哈希桶方法的快速三支决策邻域分类器.首先,对分类训练集通过哈希规则将样本对象映射到对应的哈希桶中,通过哈希桶实现了邻域的搜索范围被限制在对象所属桶和相邻两个桶中;然后,为了避免测试样本针对多个最大决策类存在类别无法判定的情况,定义一种平均距离度来描述对象与决策类之间的距离程度,在多数投票规则基础上结合平均距离度,实现了测试对象对最大决策类的识别能力;最后,综合快速邻域类计算和平均距离度,建立了基于哈希桶的快速三支决策邻域分类器模型.实验结果表明了所提出的分类器具有较好的分类性能和分类效率. 展开更多
关键词 邻域粗糙集 邻域分类器 哈希桶 三支决策 平均距离度
在线阅读 下载PDF
哈希桶Variety-B树的数据流处理方法 被引量:1
3
作者 王竹荣 伊珍珍 +2 位作者 黑新宏 冯华萍 费蓉 《西安理工大学学报》 CAS 北大核心 2017年第1期13-17,共5页
为方便对数据流数据的存储和查询,分析了Variety-B树结构存在的缺陷,设计一种改进的Variety-B树结构。通过在内存中开辟循环缓冲区,并在叶子结点采用哈希桶结构,以达到根据流数据信息动态分配内存空间。对哈希桶中数据存储引起的地址冲... 为方便对数据流数据的存储和查询,分析了Variety-B树结构存在的缺陷,设计一种改进的Variety-B树结构。通过在内存中开辟循环缓冲区,并在叶子结点采用哈希桶结构,以达到根据流数据信息动态分配内存空间。对哈希桶中数据存储引起的地址冲突设计一种线性探测哈希函数解决方法,及建立Variety-B树结构索引,可有效降低地址冲突,提高数据的检索效率。在此基础上,对历史数据流的存储和查询操作算法进行了设计和分析。实验测试结果表明,本文所提改进Variety-B树对历史数据流的存储和查询操作所消耗的计算机资源相对Variety-B树有所减少。 展开更多
关键词 数据流 Variety-B树 循环缓冲区 哈希桶
在线阅读 下载PDF
适用于范围查询的列存储数据桶划分算法 被引量:3
4
作者 李晔锋 乐嘉锦 王梅 《计算机研究与发展》 EI CSCD 北大核心 2013年第3期594-601,共8页
范围查询是数据库中一项重要的操作.列存储数据库中,能否有效查找一个范围内的属性值,获取对应的行号集合,将极大影响元组重构的效率.与树型结构相比,Hash表对数据的精确查找具有更高的效率,但是范围查找的效率比较低.针对这种情况,提... 范围查询是数据库中一项重要的操作.列存储数据库中,能否有效查找一个范围内的属性值,获取对应的行号集合,将极大影响元组重构的效率.与树型结构相比,Hash表对数据的精确查找具有更高的效率,但是范围查找的效率比较低.针对这种情况,提出了一种改进的可用于范围查询的数据桶划分算法.为了能够更好地对算法进行描述,首先提出了可用于范围查询的Hash存储模型(rangedHash,RH),并给出了桶的值域和序列化的定义.其次针对列存储等"读优先"特性,在RH模型的基础上,提出一种改进的桶划分算法.该算法生成可序列化的哈希函数把属性值划分到桶中,能够同时提高属性值的范围查询效率和存储效率.最后,通过实验结果验证算法的有效性. 展开更多
关键词 列存储 范围查询 hash 可序列化 桶划分
在线阅读 下载PDF
并行数据库中JOIN运算的并行算法 被引量:2
5
作者 黄明和 钟萃相 《计算机工程与科学》 CSCD 2006年第2期90-92,共3页
JOIN运算的并行算法一直是并行数据库领域中研究的热点问题,先后出现了一系列并行JOIN算法或改进算法,但它们都存在着通信效率较低、负载调度频繁等问题。本文针对这些问题,在分析比较前人工作的基础上对SABJ+算法与ABJ+算法加以改进,... JOIN运算的并行算法一直是并行数据库领域中研究的热点问题,先后出现了一系列并行JOIN算法或改进算法,但它们都存在着通信效率较低、负载调度频繁等问题。本文针对这些问题,在分析比较前人工作的基础上对SABJ+算法与ABJ+算法加以改进,得到了效率更高的并行JOIN算法ABJ++。 展开更多
关键词 串行JOIN算法 并行JOIN算法 并行hash JOIN算法 分桶
在线阅读 下载PDF
线对象邻接关系快速重构算法
6
作者 廖名学 范植华 何晓新 《计算机应用》 CSCD 北大核心 2008年第1期245-247,共3页
给定向量化坐标,计算n个线对象两两邻接关系,普通算法时间复杂度为O(n*n);理论最好时间复杂度为O(C),其中C是邻接关系的基数。基于散列桶,给出了建立线对象邻接关系的快速算法,其平均时间复杂度为O(n(1+1/r)),r为算... 给定向量化坐标,计算n个线对象两两邻接关系,普通算法时间复杂度为O(n*n);理论最好时间复杂度为O(C),其中C是邻接关系的基数。基于散列桶,给出了建立线对象邻接关系的快速算法,其平均时间复杂度为O(n(1+1/r)),r为算法分配的桶数量与n的比,空间复杂度为O(n)。证明了若不允许使用额外空间,则不可能使用排序算法解决该问题;给出了允许使用额外空间条件下的两遍排序算法,时间复杂度为O(n(1bn+1+2/r))。应用表明快速算法比普通算法速度提高1—3个数量级。 展开更多
关键词 线对象 邻接关系 桶排序 算法分析
在线阅读 下载PDF
基于多表频繁项投票和桶映射链的快速检索方法 被引量:5
7
作者 高毫林 彭天强 +1 位作者 李弼程 郭志刚 《电子与信息学报》 EI CSCD 北大核心 2012年第11期2574-2581,共8页
为解决基于随机映射的高维向量快速检索方法位置敏感哈希存在的随机性强和内存消耗大两个问题,在E2LSH(Exact Euclidean Locality Sensitive Hashing)的基础上提出了基于多表频繁项投票和桶映射链的快速检索方法。该方法用检索结果构造... 为解决基于随机映射的高维向量快速检索方法位置敏感哈希存在的随机性强和内存消耗大两个问题,在E2LSH(Exact Euclidean Locality Sensitive Hashing)的基础上提出了基于多表频繁项投票和桶映射链的快速检索方法。该方法用检索结果构造基准索引矩阵,并对基准索引矩阵进行频繁项投票和校正得出最终索引来降低检索的随机性;桶映射链利用E2LSH的数据划分特性减少检索时读入内存的数据点的数目,以此来降低内存消耗。实验证明该方法能减弱检索的随机性,并有效地降低检索的内存消耗。这对于提高大规模信息检索尤其是图像检索的可行性有着较大的作用。 展开更多
关键词 信息检索 位置敏感哈希 随机性 内存消耗 频繁项投票 桶映射链
在线阅读 下载PDF
基于均衡学习的增强哈希桶模型研究
8
作者 王小玲 鲁鹏 《光通信研究》 北大核心 2014年第3期30-32,51,共4页
在使用哈希查找表构造IEEE 802.1Q协议中VLAN(虚拟局域网)网桥定义的过滤数据库时,哈希桶常被用于解决多个关键字对应同一个存储地址而造成的"哈希冲突"。传统哈希桶通过唯一的哈希地址获取整个学习表的资源,效率较低。文章... 在使用哈希查找表构造IEEE 802.1Q协议中VLAN(虚拟局域网)网桥定义的过滤数据库时,哈希桶常被用于解决多个关键字对应同一个存储地址而造成的"哈希冲突"。传统哈希桶通过唯一的哈希地址获取整个学习表的资源,效率较低。文章提出了一种改进哈希表冲突的优化方法,通过双哈希桶和溢出桶来构造哈希表,并采用均衡学习的方式进行地址学习操作。该方法在双哈希桶溢出的情况下,将溢出条目暂存到溢出桶,并通知软件完成双哈希桶中冲突条目的释放和溢出桶中溢出条目的搬移操作。仿真实验结果表明,新的哈希算法可以有效减少哈希冲突的发生率,提高哈希表存储空间的利用率。 展开更多
关键词 哈希桶 哈希冲突 均衡学习
在线阅读 下载PDF
基于敏捷分桶的频繁项目集生成新算法
9
作者 周启海 陈勇明 《计算机科学》 CSCD 北大核心 2007年第12期168-170,共3页
指出用于数据挖掘的频繁项目集生成的常规Hash算法存在两个主要缺点:1)难挑选合适的Hash函数,2)易导致Hash冲突。为了克服了这些缺点,提出了一种能动态适应频繁项目集生成实际需要的敏捷分桶新算法,该算法对任何项目集均有按需反应能力... 指出用于数据挖掘的频繁项目集生成的常规Hash算法存在两个主要缺点:1)难挑选合适的Hash函数,2)易导致Hash冲突。为了克服了这些缺点,提出了一种能动态适应频繁项目集生成实际需要的敏捷分桶新算法,该算法对任何项目集均有按需反应能力,且无需寻找任何Hash函数,更不会导致任何Hash冲突。同时给出了进一步改进和提高新算法效率的研究方向。 展开更多
关键词 数据挖掘 频繁项目集 hash函数 hash冲突 敏捷分桶
在线阅读 下载PDF
配用电大数据多源集成及存储优化方法 被引量:23
10
作者 王林童 赵腾 +2 位作者 张焰 苏运 田世明 《高电压技术》 EI CAS CSCD 北大核心 2018年第4期1131-1139,共9页
面对体量大、类型多、增长快的配用电大数据,如何利用大数据技术提升配用电相关业务的广度、深度和精度成为电力行业新的机遇和挑战。为解决配用电大数据多源集成和高效存储两方面核心问题,根据配用电大数据的组成及特征,通过生成标准... 面对体量大、类型多、增长快的配用电大数据,如何利用大数据技术提升配用电相关业务的广度、深度和精度成为电力行业新的机遇和挑战。为解决配用电大数据多源集成和高效存储两方面核心问题,根据配用电大数据的组成及特征,通过生成标准化元数据并构建相应数据字典的方法,实现了多源配用电数据规范化集成;在数据集成的基础上,基于Hadoop平台进行大数据存储优化方法研究,提出考虑配用电数据关联性的哈希分桶存储算法,实现了相关联数据的集中存储,从而提升后期数据查询及处理的效率并在数据存储优化的基础上,实现基于Map Reduce的多源配用电大数据并行关联查询。通过在Hadoop集群平台上进行测试表明,经过哈希分桶存储优化后的多源数据并行关联查询相比传统Hadoop方法查询时间显著缩短。 展开更多
关键词 配用电大数据 数据集成 HADOOP 哈希分桶存储 并行关联查询
在线阅读 下载PDF
基于Hadoop的风力发电监测大数据存储优化及并行查询方法 被引量:24
11
作者 王林童 赵腾 +1 位作者 张焰 苏运 《电测与仪表》 北大核心 2018年第11期1-6,共6页
随着风力发电的广泛发展以及智能化监测技术的推广应用,风力发电监测数据呈现出体量大、类型多、增长快的大数据特征。针对风力发电监测大数据高效存储和快速查询两方面核心问题,基于Hadoop平台进行大数据存储优化方法研究,提出考虑风... 随着风力发电的广泛发展以及智能化监测技术的推广应用,风力发电监测数据呈现出体量大、类型多、增长快的大数据特征。针对风力发电监测大数据高效存储和快速查询两方面核心问题,基于Hadoop平台进行大数据存储优化方法研究,提出考虑风力发电监测数据关联性的哈希分桶存储算法,实现了相关联数据的集中存储,从而提升后期数据查询及处理的效率。在数据存储优化的基础上,实现基于MapReduce的多源风力发电监测大数据并行关联查询。通过在Hadoop平台上进行测试表明,经过哈希分桶存储优化后的多源数据并行关联查询相比传统Hadoop方法查询时间显著缩短。 展开更多
关键词 大数据 风力发电监测 HADOOP 哈希分桶算法
在线阅读 下载PDF
EasiFFRA:一种基于邻域粗糙集的属性快速约简算法 被引量:8
12
作者 王念 彭政红 崔莉 《计算机研究与发展》 EI CSCD 北大核心 2019年第12期2578-2588,共11页
从高维异构感知信息中提取有效特征是支撑物联网系统预测与识别的基础.物联网场景中通常包括多个多种感知节点,系统通常会从感知数据中提取大量特征,其中不乏部分无关和冗余特征.这些无关及冗余特征会降低系统的运行速度,引入冗余计算,... 从高维异构感知信息中提取有效特征是支撑物联网系统预测与识别的基础.物联网场景中通常包括多个多种感知节点,系统通常会从感知数据中提取大量特征,其中不乏部分无关和冗余特征.这些无关及冗余特征会降低系统的运行速度,引入冗余计算,更会影响后续的分类及预测等机器学习操作的性能.因而高效识别并提取低维有效的特征子集是物联网数据分析所面临的一大挑战.邻域粗糙集方法能够在保持数据集可分性的前提下,识别和去除无关及冗余特征子集,从而达到降维效果.但由于现有基于邻域粗糙集的特征约简算法的计算开销大、运行时间长,故而并未得到广泛应用.提出了一种基于邻域关系对称性及决策值过滤策略的特征快速约简算法EasiFFRA.EasiFFRA可通过改进的散列分桶方法加速正域样本计算,可检验并过滤冗余决策值样本,从而降低现有方法中由于重复距离评估所带来的冗余计算.实验结果表明:EasiFFRA在实际采集的水质数据集和多个不同样本量及维度的公开数据集中平均加快75.45%的特征约简时间,其约简结果和已有邻域粗糙集特征约简算法等效,可有效解决物联网数据分析中由冗余及无关特征导致的分类及预测精度下降问题,有重要应用价值. 展开更多
关键词 邻域粗糙集 特征约简 对称机制 过滤机制 散列分桶
在线阅读 下载PDF
基于大数据技术风电机组容量可信度计算 被引量:11
13
作者 候卫萍 蔺红 《电测与仪表》 北大核心 2020年第14期39-44,共6页
在大规模风电并网的前提下,风电容量可信度计算对电力系统可靠运行具有重要意义。论文基于电量不足期望(LOEE)可靠性指标,考虑风电场间时空相关性的影响因素,采用非序贯蒙特卡洛法对风电容量可信度进行计算。风电容量可信度的计算需要... 在大规模风电并网的前提下,风电容量可信度计算对电力系统可靠运行具有重要意义。论文基于电量不足期望(LOEE)可靠性指标,考虑风电场间时空相关性的影响因素,采用非序贯蒙特卡洛法对风电容量可信度进行计算。风电容量可信度的计算需要的数据有风速、风电出力、风电机组地理位置信息等数据,由于计算所需的数据量大、类型多、来源广等特点,提出基于Hadoop架构的大数据技术计算风电容量可信度,针对Hadoop架构存在的机架感知不平衡及存储数据间缺乏相关性问题,引入机架感知配置法和哈希桶存储算法对其进行改进,提高了数据存储及数据处理的效率,减少计算时间,通过实例验证文中所提方法的有效性。 展开更多
关键词 Hadoop架构 风电容量可信度 哈希桶存储 蒙特卡洛 大数据技术
在线阅读 下载PDF
基于对象存储系统中属性管理的研究与实现
14
作者 王慧丽 冯丹 覃灵军 《计算机应用研究》 CSCD 北大核心 2007年第11期188-190,共3页
针对现有属性管理方法上的缺陷和不足,提出了一种新的属性管理方法——哈希桶。哈希桶方法对对象的属性进行集中管理,不仅降低了管理存储成本,更有效地提高了系统的吞吐率。经过仿真测试表明,哈希桶对象属性管理方法性能远优于现有的属... 针对现有属性管理方法上的缺陷和不足,提出了一种新的属性管理方法——哈希桶。哈希桶方法对对象的属性进行集中管理,不仅降低了管理存储成本,更有效地提高了系统的吞吐率。经过仿真测试表明,哈希桶对象属性管理方法性能远优于现有的属性管理方法。 展开更多
关键词 基于对象存储系统 对象属性 哈希桶
在线阅读 下载PDF
DAS模式下基于密文分组索引的完整性验证
15
作者 杨平平 杜小勇 王洁萍 《计算机科学与探索》 CSCD 2010年第5期426-435,共10页
目前关于DAS模式下的全概率完整性验证方法主要是建立在明文数据上,并没有建立在密文数据上的完整性验证方法。提出一种建立在密文数据上的适用于动态数据库的完整性验证方法。分组索引是在DAS模式下的一种高效的密文索引,在密文数据分... 目前关于DAS模式下的全概率完整性验证方法主要是建立在明文数据上,并没有建立在密文数据上的完整性验证方法。提出一种建立在密文数据上的适用于动态数据库的完整性验证方法。分组索引是在DAS模式下的一种高效的密文索引,在密文数据分组索引的基础上,提出利用无碰撞增量式哈希生成完整性验证信息的方法。这是一种验证速度快(可并行计算)、维护代价小(对于增删改操作可增量式维护)的全概率验证方法,适用于动态数据库中完整性的验证。 展开更多
关键词 数据外包 完整性验证 分组索引 无碰撞增量式哈希
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部