期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
选择-验证-过滤:一种迭代的子图包含查询处理机制
1
作者 吕建华 张柏礼 +2 位作者 姜杉 陆宁云 王菲菲 《计算机研究与发展》 EI CSCD 北大核心 2012年第10期2221-2228,共8页
近年来,图模型广泛应用于生物信息、计算化学、语义网等领域.目前,"过滤-验证"机制被广泛用于子图包含查询,即首先根据图数据的特征构造索引,然后根据索引产生候选集,最后对候选集中的每一个图进行子图同构验证.在这类算法中,... 近年来,图模型广泛应用于生物信息、计算化学、语义网等领域.目前,"过滤-验证"机制被广泛用于子图包含查询,即首先根据图数据的特征构造索引,然后根据索引产生候选集,最后对候选集中的每一个图进行子图同构验证.在这类算法中,"过滤"阶段是关注的重点,力争过滤掉更多的数据;而"验证"阶段则只是单纯地进行候选图子图同构检测,并没有进一步优化查询性能的可能.因此,提出了一种新的子图包含查询的迭代处理机制:"选择-验证-过滤",可利用从子图同构验证过程中得到的信息,结合数据库中图数据之间的相关关系,进行迭代查询处理.该机制首先选择数据库中的图与查询图进行同构验证,然后根据本次验证得到的信息,结合图数据之间的子图映射关系,进行迭代查询处理.一旦子图同构验证成功则可直接获得查询结果,而若验证不成功,则可以缩小下次迭代的查询搜索空间.为提高验证成功概率,提出了一种基于搜索空间预测的图选择策略.大量实验表明,该算法具有较"过滤-验证"机制更高的查询处理性能. 展开更多
关键词 图数据 子图包含查询 选择-验证-过滤 迭代算法 搜索空间优化
在线阅读 下载PDF
双向过滤的字符串相似连接验证方法 被引量:2
2
作者 黄樱 宋春花 牛保宁 《计算机工程与应用》 CSCD 北大核心 2017年第9期72-79,共8页
字符串相似连接是指在字符串集合中找出相似的字符串对,是许多应用的关键操作,寻找高效的字符串相似连接算法已成为研究热点。基于划分的过滤-验证方法(Pass-Join)与其他方法相比具有较高的效率。它按照字符串长度递增的顺序访问字符串... 字符串相似连接是指在字符串集合中找出相似的字符串对,是许多应用的关键操作,寻找高效的字符串相似连接算法已成为研究热点。基于划分的过滤-验证方法(Pass-Join)与其他方法相比具有较高的效率。它按照字符串长度递增的顺序访问字符串集合,通过查找一个字符串的划分块是否存在于另一个字符串中,快速筛选出可能相似的字符串对(候选集),然后利用编辑距离进行相似性验证。研究发现,按照字符串长度递减的顺序进行过滤(长度递减过滤)的效果优于按照长度递增的顺序过滤(长度递增过滤)的效果,基于此,提出双向过滤-验证机制:在过滤阶段对长度递减过滤的结果再进行一次长度递增过滤,进一步减小候选集大小;在验证阶段利用双向过滤产生的两对划分块和其匹配子串分隔字符串对,从而减小需要验证的字符串的长度,加速验证过程。实验证明,双向过滤-验证算法在真实数据集上优于原算法。 展开更多
关键词 字符串相似连接 双向过滤-验证机制 过滤-验证框架
在线阅读 下载PDF
基于混合专业词典的继电保护定值在线智能比对方法 被引量:12
3
作者 李红志 王彪 +2 位作者 陈卉 孔祥鹏 陈中 《广东电力》 2020年第4期58-66,共9页
继电保护在线定值比对需要将整定定值和运行定值对应的定值名称进行匹配,针对此过程中存在的匹配效率不高、准确度差等问题,提出一种基于混合专业词典的防误比对方法以实现智能化匹配。该方法首先改进整词二分词典结构,增加同义词标志... 继电保护在线定值比对需要将整定定值和运行定值对应的定值名称进行匹配,针对此过程中存在的匹配效率不高、准确度差等问题,提出一种基于混合专业词典的防误比对方法以实现智能化匹配。该方法首先改进整词二分词典结构,增加同义词标志项和复合型字符标志项,同时将中文、英文和序号类字符均纳入字典,采用改进的正向最大匹配算法(forward maximum matching,FMM)提高分词准确度;其次,提出类型和首项的双重过滤机制以减小目标搜索空间的大小;然后针对继电保护定值名称的特殊性,采用不计词序的Jaccard相似度替代编辑距离计算的相似度,提高匹配准确度;最后通过定值项取值比较结果的反馈进行二次匹配,进一步提高匹配的准确度。算例分析验证所提方法能够有效提高比对的效率和精度。 展开更多
关键词 继电保护 定值比对 FMM算法 Jaccard相似度 过滤验证机制
在线阅读 下载PDF
基于改进编辑距离算法的保护装置测试模板开发 被引量:3
4
作者 林道鸿 吴强 +3 位作者 邵雷 万信书 陈中 李东升 《广东电力》 2018年第10期36-43,共8页
继电保护测试子模板实例化过程需要人工将实际参数赋给相应的数据接口,存在匹配繁琐、效率不高、准确性差的问题。为此,研究了一种改进编辑距离(improved lenvenshtein distance,ILD)算法来实现测试子模板实例化过程中数据匹配与数值传... 继电保护测试子模板实例化过程需要人工将实际参数赋给相应的数据接口,存在匹配繁琐、效率不高、准确性差的问题。为此,研究了一种改进编辑距离(improved lenvenshtein distance,ILD)算法来实现测试子模板实例化过程中数据匹配与数值传递的自动化和智能化。首先改进整词二分词典结构,即改进正向最大匹配(forward maximum matching,FMM)算法对字符串进行分词预处理,减少1/2的匹配复杂度;其次提出长度和后缀结合的双重过滤-验证机制,减小多字符串匹配时目标字符串搜索空间的大小;然后在编辑距离(lenvenshtein distance,LD)计算时以子串为单位取代逐字符,改进LD算法,提高字符串匹配效率;最后通过测试算例验证改进FMM算法在字符串分词处理上的高效性和正确性,实现在测试子模板实例化过程中数据匹配与数值传递的自动化与智能化。 展开更多
关键词 继电保护 自动测试 FMM算法 ILD算法 编辑距离 双重过滤验证机制
在线阅读 下载PDF
泛化双向相似连接
5
作者 王昶平 王朝坤 +2 位作者 汪浩 王萌 陈俊 《软件学报》 EI CSCD 北大核心 2017年第12期3223-3240,共18页
相似连接是数据管理领域的一个热门话题,已在社会生产生活中得到广泛应用.然而,现有的相似连接方法并不能满足真实世界不断增长的客观需求.通过引入定义在多种数据类型上的满足操作符和每条数据的独立阈值,定义了一种相似连接——泛化... 相似连接是数据管理领域的一个热门话题,已在社会生产生活中得到广泛应用.然而,现有的相似连接方法并不能满足真实世界不断增长的客观需求.通过引入定义在多种数据类型上的满足操作符和每条数据的独立阈值,定义了一种相似连接——泛化双向相似连接.这种连接扩展了相似连接的应用范围.同时,还提出了两种高效的解决泛化双向相似连接问题的方法:子连接集算法和映射-过滤-验证算法.通过真实与合成数据集上的大量实验,得出了所提方法的正确性和有效性. 展开更多
关键词 双向相似连接 泛化数据 独立阈值 数据映射 过滤验证
在线阅读 下载PDF
基于CPU-GPU异构体系结构的并行字符串相似性连接方法 被引量:4
6
作者 徐坤浩 聂铁铮 +2 位作者 申德荣 寇月 于戈 《计算机研究与发展》 EI CSCD 北大核心 2021年第3期598-608,共11页
相似性连接技术在数据清洗、数据集成等领域中具有重要意义,近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现,传统的串行相似性连接方法已经不能满足当前大数据处理的需... 相似性连接技术在数据清洗、数据集成等领域中具有重要意义,近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现,传统的串行相似性连接方法已经不能满足当前大数据处理的需求.近些年,GPU作为协处理器在机器学习等领域取得了良好的加速效果,因此基于GPU的并行算法开始成为解决各类性能问题的有效解决方案.为此,提出了基于CPU-GPU异构体系的并行相似性连接方法.首先,方法使用GPU构建倒排索引,索引采用SoA(struct of arrays)结构,从而解决了传统索引结构在并行模式下读写效率低的问题.其次,针对串行算法的性能问题,提出基于过滤验证框架的并行双重长度过滤算法,其中利用前缀过滤和构建好的倒排索引提升过滤效果.方法中相似度精确计算验证过程使用CPU计算执行,从而充分利用CPU-GPU的异构计算资源.最后,在多个数据集上进行实验验证性能.通过与串行相似性连接算法进行对比,实验结果表明所提出方法相对于已有方法具有更好的过滤效果和更低的索引生成代价,并在相似性连接上具有更好的性能和良好的加速比. 展开更多
关键词 相似性连接 过滤验证框架 倒排索引 GPU并行处理 异构体系结构
在线阅读 下载PDF
基于SQL的图相似性查询方法 被引量:4
7
作者 赵展浩 黄斐然 +2 位作者 王晓黎 卢卫 杜小勇 《软件学报》 EI CSCD 北大核心 2018年第3期689-702,共14页
图作为一种表示复杂信息的数据结构,被广泛应用于社交网络、知识图谱、语义网、生物信息学和化学信息学等领域.随着各领域应用的普及和深入开展,如何管理这些复杂图数据,是目前图数据库技术面临的巨大挑战.图的相似性查询是图数据管理... 图作为一种表示复杂信息的数据结构,被广泛应用于社交网络、知识图谱、语义网、生物信息学和化学信息学等领域.随着各领域应用的普及和深入开展,如何管理这些复杂图数据,是目前图数据库技术面临的巨大挑战.图的相似性查询是图数据管理中的热点问题之一,对图查询问题的研究主要包括图的相似性查询等.重点研究基于编辑距离(graph edit distance)的图相似性查询处理问题.首先,通过对目前代表性的问题求解算法分析发现,目前已提出的过滤规则都具有自己的优缺点和适用性.其次,针对已有方法在过滤阶段自身存在的优缺点和适用性的问题,提出一种面向关系型数据库的过滤框架,新的过滤框架可以支持所有已有的过滤规则,从而通过结合不同的过滤规则来优化图相似查询算法以提高查询效率.该方法可以最大程度地保留不同过滤规则的优点并克服其缺点,从而对不同查询具有普遍适用性.最后,基于PubChem数据集,通过比较算法在求解查询结果的时间消耗,验证所提出算法的高效性及可扩展性.实验结果表明,所提出的方法优于现有算法. 展开更多
关键词 图编辑距离 图相似查询 POSTGRESQL 过滤验证
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部