期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于编辑距离和相似度改进的汉字字符串匹配 被引量:17
1
作者 邵清 叶琨 《电子科技》 2016年第9期7-11,共5页
为解决中文字符串匹配精度较低的问题,提出了一种基于编辑距离和相似度改进的汉字字符串近似匹配算法,针对汉字字符串特点,使用汉字拼音和五笔编码计算;通过改进动态规划算法,能够有效提高编辑距离的计算准确度以及执行效率;再引入考虑... 为解决中文字符串匹配精度较低的问题,提出了一种基于编辑距离和相似度改进的汉字字符串近似匹配算法,针对汉字字符串特点,使用汉字拼音和五笔编码计算;通过改进动态规划算法,能够有效提高编辑距离的计算准确度以及执行效率;再引入考虑交换问题的归一化算法,以语义编辑距离与长句长度的比值作为归一化结果,以此来提高近似匹配算法的准确度。实验结果表明,改进后算法计算的相似度质量要优于改进前的算法结果,且对提高算法效率和查全率、查准率和时间性能等指标均有明显改善,证明该算法的可行性和有效性。 展开更多
关键词 编辑距离 相似 归一化 中文字符串 近似匹配
在线阅读 下载PDF
基于异或编辑距离算法的航班号相似度研究 被引量:2
2
作者 孔金凤 王煜 《湘潭大学自然科学学报》 CAS 北大核心 2015年第2期116-120,共5页
航班号是执行运输航空任务航空器的主用识别标志,但相似航班号会严重影响管制运行效率和航空安全.目前,相似航班号的判断主要依赖管制员的管制经验,对其尚无相关定量研究方法.该文在用于文本相似度定量比较的编辑距离算法基础上,提出了... 航班号是执行运输航空任务航空器的主用识别标志,但相似航班号会严重影响管制运行效率和航空安全.目前,相似航班号的判断主要依赖管制员的管制经验,对其尚无相关定量研究方法.该文在用于文本相似度定量比较的编辑距离算法基础上,提出了航班号相似度计算的异或编辑距离算法,并利用北京区域管制中心的实际运行数据验证了该算法的可行性.根据该方法计算了国内主要航空公司的平均相似度,相关结果可为航班号的分配提供定量参考. 展开更多
关键词 航班号 相似 异或编辑距离 LD算法
在线阅读 下载PDF
字符串相似度在自动评分系统中的应用 被引量:11
3
作者 杜利峰 牛永洁 《电子设计工程》 2011年第7期42-44,共3页
在对编程语言类的自动评分系统中,程序设计类型的填空题大多采用字符串精确匹配的方法,而编程题的自动评分是一个难点。在分析两类题型的特点及目前采用的评测方法的优缺点的基础上,提出使用字符串相似度算法对程序设计题进行评判,并给... 在对编程语言类的自动评分系统中,程序设计类型的填空题大多采用字符串精确匹配的方法,而编程题的自动评分是一个难点。在分析两类题型的特点及目前采用的评测方法的优缺点的基础上,提出使用字符串相似度算法对程序设计题进行评判,并给出了评分过程的整体流程图。经过实际的使用,证明该方法是目前采用方法的一个很好补充,使评分的过程更加客观、公正,能够减少教师的工作量,提高教学工作效率,值得推广。 展开更多
关键词 程序设计 自动评分 字符串相似 编辑距离 匹配
在线阅读 下载PDF
LCS算法与编辑距离算法的研究 被引量:5
4
作者 郑凯 欧阳林艳 +1 位作者 林强 刘芳冰 《信息通信》 2015年第5期22-23,共2页
随着计算机网络技术的发展,检索成为互联网中一项重要的技术。字符串搜索系统允许用户提供一段字符串作为查询条件,系统将查询条件中提取的字符串与数据库中所有的数据逐一进行比较,计算它们之间的相似度,并根据相似度值的高低排序,返... 随着计算机网络技术的发展,检索成为互联网中一项重要的技术。字符串搜索系统允许用户提供一段字符串作为查询条件,系统将查询条件中提取的字符串与数据库中所有的数据逐一进行比较,计算它们之间的相似度,并根据相似度值的高低排序,返回相似度值最高的字符串。根据字符串相似度度量算法的最长公共子串LCS算法和编辑距离算法的基本原理,将两种算法进行实现,并在特定的简谱字符比较应用中进行实例分析,评价两种算法的应用特点。 展开更多
关键词 相似 LCS算法 编辑距离算法
在线阅读 下载PDF
多特征融合的文本相似度方法 被引量:1
5
作者 邹丽强 何月顺 《现代电子技术》 2023年第11期103-108,共6页
通过从多方面考虑在自然语言处理中文本相似度的问题,从而提升文本相似度计算的准确性。提出一种多特征融合的文本相似度方法,该方法使用Jaro Distance编辑距离算法结合相同词计算文本结构相似度,使用长短时记忆网络的双塔模型算法计算... 通过从多方面考虑在自然语言处理中文本相似度的问题,从而提升文本相似度计算的准确性。提出一种多特征融合的文本相似度方法,该方法使用Jaro Distance编辑距离算法结合相同词计算文本结构相似度,使用长短时记忆网络的双塔模型算法计算文本语义相似度,使用融合多向量模型的双向长短时记忆网络的注意力算法计算文本相似度。考虑上述三种特征,通过线性加权调整模型的权重以避免其中任意一种方法计算出的相似度过大或者过小对最终的文本相似度造成不好的影响。以文本相似度的实验值与真实值的均方误差作为衡量标准,均方误差越小方法效果越好。实验结果表明,MFTM算法比WBLSA、MVBLSA算法的MSE值在SICK数据集上平均降低了5.4%、1.276%,因此,提出的算法在文本相似度计算上的效果更好。 展开更多
关键词 特征融合 文本相似 改进编辑距离 长短时记忆网络 双塔模型 注意力机制
在线阅读 下载PDF
基于最优路径策略方法快速计算字符串编辑距离 被引量:1
6
作者 王远超 安俊秀 +1 位作者 程芃森 王鹏 《成都信息工程学院学报》 2014年第6期616-624,共9页
传统编辑距离算法采用动态规划方法用一个维度大小分别为源字符串长度和目标字符串长度的二维数组保存计算过程中求得编辑距离值。这种传统求解方式在时间效率和空间效率上开销较大,限制了编辑距离算法在长字符串中地应用。针对传统方... 传统编辑距离算法采用动态规划方法用一个维度大小分别为源字符串长度和目标字符串长度的二维数组保存计算过程中求得编辑距离值。这种传统求解方式在时间效率和空间效率上开销较大,限制了编辑距离算法在长字符串中地应用。针对传统方法存在的问题,经深入研究编辑距离的求解过程,发现在某个关键区域内存在一条最优路径,通过确定最优路径所在关键区域可以快速地求解两字符串之间的编辑距离值。实验表明,方法在计算两字符串之间的编辑距离与传统方法相比可以降低问题的求解规模,提高算法的时间效率和空间效率。所描述的方法同样适用于图论中使用动态规划方法求解一般问题地应用,比如最优分配问题和背包问题等。 展开更多
关键词 计算机软件与理论 大数据技术 编辑距离 相似 最优路径 关键区域 动态规划
在线阅读 下载PDF
一种改进的文本相似度算法在政务系统中的应用 被引量:3
7
作者 贾惠娟 《信息技术与信息化》 2016年第7期49-52,共4页
为了更好的提高政务工作的生产效率,提出了编辑距离、改进的空间向量模型以及特征词库相结合的一种改进的文本相似度算法模型。改进算法充分考虑了政务文本的特征,以及特征词分类及权重影响,有效降低了计算的维度、缩小了计算的范围,大... 为了更好的提高政务工作的生产效率,提出了编辑距离、改进的空间向量模型以及特征词库相结合的一种改进的文本相似度算法模型。改进算法充分考虑了政务文本的特征,以及特征词分类及权重影响,有效降低了计算的维度、缩小了计算的范围,大大提高了应用系统中检索数据返回的速率。系统运行结果也表明了改进的文本相似度算法在检测相似政务文本方面效果和性能有显著提高。 展开更多
关键词 文本相似算法 TF-IDF 向量空间 编辑距离 电子政务
在线阅读 下载PDF
基于分段加权相似度匹配算法的中文科研机构名称归一化 被引量:2
8
作者 沈沛 毛海涛 +1 位作者 胡文林 刘宇麟 《信息技术与信息化》 2022年第9期59-62,共4页
归一化是文本数据挖掘预处理的重要一步,实体名称归一化又占其中较大比重。实体名称归一化通常会用到字符串相似度匹配算法。以中文科研机构名称归一化为目标,提出了一种分段加权相似度匹配算法。算法将语料库中的科研机构全称进行合理... 归一化是文本数据挖掘预处理的重要一步,实体名称归一化又占其中较大比重。实体名称归一化通常会用到字符串相似度匹配算法。以中文科研机构名称归一化为目标,提出了一种分段加权相似度匹配算法。算法将语料库中的科研机构全称进行合理的结构分段,将待归一化数据与分别分段字符串计算相似度,加权求和后选定相似度最大的全称作为归一化值。实验结果表明该方法效果良好,在中文科研机构名匹配和归一化方面有较大应用价值。 展开更多
关键词 中文归一化 文本相似 编辑距离
在线阅读 下载PDF
改进SLANet的OCR表结构识别方法
9
作者 曹茂俊 李悦 《吉林大学学报(信息科学版)》 2025年第1期98-106,共9页
针对传统的识别表结构方法难以充分学习多行多列合并、空白、嵌套单元格等复杂表结构以及提取特征过程中容易出现信息缺失的问题,提出了一种改进SLANet(Structure Location Alignment Network)的OCR(Optical Character Recognition)表... 针对传统的识别表结构方法难以充分学习多行多列合并、空白、嵌套单元格等复杂表结构以及提取特征过程中容易出现信息缺失的问题,提出了一种改进SLANet(Structure Location Alignment Network)的OCR(Optical Character Recognition)表结构识别方法。首先,利用轻量级CPU(Central Processing Unit)卷积神经网络并引入注意力机制,增强网络泛化和解释能力,将训练得到信息向量输入轻量级高低层特征融合模块中提取特征,并将输出特征通过特征解码模块对齐结构与位置信息,得到预测标签。实验表明,与EDD(Encoder-Dual-Decoder)、 TableMaster等模型相比,该方法准确率有显著提升,达到76.95%,TEDS(Tree-Edit-Distance-based Similarity)达到95.57%,显著增强了模型识别非常规复杂表结构能力,为识别表结构提供了一种优化策略。 展开更多
关键词 识别表结构 结构位置对齐网络 注意力机制 基于树编辑距离的相似度
在线阅读 下载PDF
基于多相似度融合算法的Pol智能化排重方法
10
作者 唐勇 耿鲁静 +1 位作者 李世光 孙言成 《电信工程技术与标准化》 2022年第S01期42-46,共5页
现有的PoI数据清洗工作形态已经不能支持自智网络时代庞大复杂的网络架构,为尽量智能地识别出PoI数据库中全量PoI重复数据,本文提出一种基于多相似度融合算法的PoI智能化排重方法。基于多相似度融合算法的PoI智能化排重方法摒弃了以往... 现有的PoI数据清洗工作形态已经不能支持自智网络时代庞大复杂的网络架构,为尽量智能地识别出PoI数据库中全量PoI重复数据,本文提出一种基于多相似度融合算法的PoI智能化排重方法。基于多相似度融合算法的PoI智能化排重方法摒弃了以往方法的单一性,经实验分别验证词形相似度、基于编辑距离的句子相似度和基于权重值融合的相似度可行性,通过大数据分析计算得出各相似度应占权重值,并且经过大数据处理确定3类相似度计算方法的阈值,得到最终的排重算法。实验结果表明重复数据识别效果和效率均得到极大幅度的提升,智能化程度得到进一步提高。 展开更多
关键词 PoI数据 编辑距离 文本相似 加权融合
在线阅读 下载PDF
面向概念设计的MEMS产品实例检索方法
11
作者 胡伟 胡国清 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第12期64-69,共6页
针对现有产品实例检索方法存在的问题及概念产品结构的特点,提出了一种基于路径集的微机电系统(MEMS)产品实例检索方法,通过关键元部件及其拓扑关系建立产品结构树,并转化为相应的产品路径集,以产品路径集的编辑距离来衡量产品实例相似... 针对现有产品实例检索方法存在的问题及概念产品结构的特点,提出了一种基于路径集的微机电系统(MEMS)产品实例检索方法,通过关键元部件及其拓扑关系建立产品结构树,并转化为相应的产品路径集,以产品路径集的编辑距离来衡量产品实例相似度大小.文中首先提出了产品路径集及其编辑操作的定义,建立了基于产品路径集的加权编辑距离计算模型;然后根据路径集编辑操作的原则提出了产品路径对编辑距离算法,以此为基础提出产品路径集编辑距离的计算方法和流程,实现对MEMS产品实例结构的相似度评价;最后以微机械滤波器的实例检索为例验证了该方法的有效性. 展开更多
关键词 微机电系统 产品路径集 编辑距离 相似 实例检索
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部