继电保护在线定值比对需要将整定定值和运行定值对应的定值名称进行匹配,针对此过程中存在的匹配效率不高、准确度差等问题,提出一种基于混合专业词典的防误比对方法以实现智能化匹配。该方法首先改进整词二分词典结构,增加同义词标志...继电保护在线定值比对需要将整定定值和运行定值对应的定值名称进行匹配,针对此过程中存在的匹配效率不高、准确度差等问题,提出一种基于混合专业词典的防误比对方法以实现智能化匹配。该方法首先改进整词二分词典结构,增加同义词标志项和复合型字符标志项,同时将中文、英文和序号类字符均纳入字典,采用改进的正向最大匹配算法(forward maximum matching,FMM)提高分词准确度;其次,提出类型和首项的双重过滤机制以减小目标搜索空间的大小;然后针对继电保护定值名称的特殊性,采用不计词序的Jaccard相似度替代编辑距离计算的相似度,提高匹配准确度;最后通过定值项取值比较结果的反馈进行二次匹配,进一步提高匹配的准确度。算例分析验证所提方法能够有效提高比对的效率和精度。展开更多
相似性连接技术在数据清洗、数据集成等领域中具有重要意义,近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现,传统的串行相似性连接方法已经不能满足当前大数据处理的需...相似性连接技术在数据清洗、数据集成等领域中具有重要意义,近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现,传统的串行相似性连接方法已经不能满足当前大数据处理的需求.近些年,GPU作为协处理器在机器学习等领域取得了良好的加速效果,因此基于GPU的并行算法开始成为解决各类性能问题的有效解决方案.为此,提出了基于CPU-GPU异构体系的并行相似性连接方法.首先,方法使用GPU构建倒排索引,索引采用SoA(struct of arrays)结构,从而解决了传统索引结构在并行模式下读写效率低的问题.其次,针对串行算法的性能问题,提出基于过滤验证框架的并行双重长度过滤算法,其中利用前缀过滤和构建好的倒排索引提升过滤效果.方法中相似度精确计算验证过程使用CPU计算执行,从而充分利用CPU-GPU的异构计算资源.最后,在多个数据集上进行实验验证性能.通过与串行相似性连接算法进行对比,实验结果表明所提出方法相对于已有方法具有更好的过滤效果和更低的索引生成代价,并在相似性连接上具有更好的性能和良好的加速比.展开更多
文摘继电保护在线定值比对需要将整定定值和运行定值对应的定值名称进行匹配,针对此过程中存在的匹配效率不高、准确度差等问题,提出一种基于混合专业词典的防误比对方法以实现智能化匹配。该方法首先改进整词二分词典结构,增加同义词标志项和复合型字符标志项,同时将中文、英文和序号类字符均纳入字典,采用改进的正向最大匹配算法(forward maximum matching,FMM)提高分词准确度;其次,提出类型和首项的双重过滤机制以减小目标搜索空间的大小;然后针对继电保护定值名称的特殊性,采用不计词序的Jaccard相似度替代编辑距离计算的相似度,提高匹配准确度;最后通过定值项取值比较结果的反馈进行二次匹配,进一步提高匹配的准确度。算例分析验证所提方法能够有效提高比对的效率和精度。
文摘相似性连接技术在数据清洗、数据集成等领域中具有重要意义,近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现,传统的串行相似性连接方法已经不能满足当前大数据处理的需求.近些年,GPU作为协处理器在机器学习等领域取得了良好的加速效果,因此基于GPU的并行算法开始成为解决各类性能问题的有效解决方案.为此,提出了基于CPU-GPU异构体系的并行相似性连接方法.首先,方法使用GPU构建倒排索引,索引采用SoA(struct of arrays)结构,从而解决了传统索引结构在并行模式下读写效率低的问题.其次,针对串行算法的性能问题,提出基于过滤验证框架的并行双重长度过滤算法,其中利用前缀过滤和构建好的倒排索引提升过滤效果.方法中相似度精确计算验证过程使用CPU计算执行,从而充分利用CPU-GPU的异构计算资源.最后,在多个数据集上进行实验验证性能.通过与串行相似性连接算法进行对比,实验结果表明所提出方法相对于已有方法具有更好的过滤效果和更低的索引生成代价,并在相似性连接上具有更好的性能和良好的加速比.