期刊文献+
共找到74篇文章
< 1 2 4 >
每页显示 20 50 100
最长公共子序列嵌入支持下的代码相似性检测
1
作者 弓媛君 黄建军 +4 位作者 游伟 石文昌 梁彬 边攀 张健 《软件学报》 北大核心 2025年第11期4975-4989,共15页
最长公共子序列(longest common subsequence,LCS)是一种衡量代码相似度的可行指标.然而,经典LCS算法的时间复杂度较高,难以应对大型数据集,并且,由于代码文本序列中的词(token)本质为一种基于离散表示的编码,直接使用LCS算法无法有效... 最长公共子序列(longest common subsequence,LCS)是一种衡量代码相似度的可行指标.然而,经典LCS算法的时间复杂度较高,难以应对大型数据集,并且,由于代码文本序列中的词(token)本质为一种基于离散表示的编码,直接使用LCS算法无法有效识别文本不同但语义相似的代码片段中的关键语义.针对这两方面的不足,提出一种面向LCS的嵌入方法,将代码间的LCS计算转换为代码低维稠密嵌入向量间的数值运算,并可以利用近似最近邻算法进一步加速其计算.为此,设计了一个可嵌入的基于LCS的距离度量方法,实验证明这种代码度量在提取函数关键语义的表现上优于对比嵌入工具使用的基于文本的距离或基于树的距离.同时,为了在嵌入过程中有重点地保留代码的关键语义,构建了两种损失函数和相应的训练集,识别文本上不同但语义上相似的代码元素,使模型在检测复杂代码克隆时有更好的表现.实验证明了该方法拥有很强的可扩展性,且其对复杂克隆的检测能力也保持在很高水平.将该技术应用于相似缺陷的识别,上报了23个未知缺陷,这些缺陷已被开发人员在实际项目中确认,其中有些复杂缺陷是难以被基于文本的LCS算法检出的. 展开更多
关键词 最长公共子序列(LCS) 代码相似性检测 代码嵌入 缺陷检测 克隆检测
在线阅读 下载PDF
面向函数内联场景的二进制到源代码函数相似性检测方法
2
作者 贾昂 范铭 +3 位作者 徐茜 晋武侠 王海军 刘烃 《软件学报》 北大核心 2025年第7期3003-3021,共19页
二进制到源代码函数相似性检测是软件组成成分分析的基础性工作之一.现有方法主要采用一对一的匹配策略,即使用单一的二进制函数和单一的源代码函数进行比对.然而,由于函数内联的存在,函数之间的映射关系实际上表现为一对多——单一的... 二进制到源代码函数相似性检测是软件组成成分分析的基础性工作之一.现有方法主要采用一对一的匹配策略,即使用单一的二进制函数和单一的源代码函数进行比对.然而,由于函数内联的存在,函数之间的映射关系实际上表现为一对多——单一的二进制函数能够关联至多个源代码函数.这一差异导致现有方法在函数内联场景下遭受了30%的性能损失.针对函数内联场景下的二进制到源代码函数匹配需求,提出了一种面向一对多匹配的二进制到源代码函数相似性检测方法,旨在生成源代码函数集合作为内联二进制函数的匹配对象,以弥补源代码函数库的缺失.通过一系列实验评估了方法的有效性.实验数据表明,方法不仅能够提升现有二进制到源代码函数相似性检测的能力,而且还能够找到内联的源代码函数,帮助现有工具更好地应对内联挑战. 展开更多
关键词 二进制到源代码函数相似性检测 函数内联 源代码函数集合
在线阅读 下载PDF
二进制代码相似性检测方法综述
3
作者 魏有缘 宋建华 张龑 《计算机科学》 北大核心 2025年第6期365-380,共16页
代码相似性检测按照研究对象可分为源代码相似性检测和二进制代码相似性检测两种,常用于恶意代码识别、漏洞搜索、版权保护等场景。基于目前国内的互联网环境,程序通常以二进制文件的形式发布,大多数程序都无法直接获得源代码,因此在软... 代码相似性检测按照研究对象可分为源代码相似性检测和二进制代码相似性检测两种,常用于恶意代码识别、漏洞搜索、版权保护等场景。基于目前国内的互联网环境,程序通常以二进制文件的形式发布,大多数程序都无法直接获得源代码,因此在软件安全领域的相关研究中,二进制代码相似性检测的应用范围相对更广。从二进制代码相似性检测的定义和实现流程出发,按照代码表征形式将其分为基于文本字符、基于代码嵌入、基于图嵌入三大类,对经典的二进制代码相似性检测方法和近5年的新方法共19篇文献进行了整理,并根据多架构、Baseline、基准数据集和检测性能对各类方法进行了分析和总结。最后,结合新方法的发展分析了当前存在的问题和未来可能的研究方向。 展开更多
关键词 二进制代码相似性检测 代码表征 软件安全 恶意代码识别 漏洞搜索
在线阅读 下载PDF
基于跨模态协同表示学习的二进制代码相似性检测方法
4
作者 杨宏宇 王云龙 +1 位作者 胡泽 成翔 《电子学报》 北大核心 2025年第4期1279-1292,共14页
二进制代码相似性检测(Binary Code Similarity Detection,BCSD)技术能够在无源代码的情况下检测二进制文件内在的安全威胁,在软件成分分析、漏洞挖掘等软件供应链安全领域中广泛应用.针对现有BCSD方法普遍忽略程序实际执行信息和局部... 二进制代码相似性检测(Binary Code Similarity Detection,BCSD)技术能够在无源代码的情况下检测二进制文件内在的安全威胁,在软件成分分析、漏洞挖掘等软件供应链安全领域中广泛应用.针对现有BCSD方法普遍忽略程序实际执行信息和局部语义信息,导致汇编指令语义表示学习效果不佳、特征提取模型的训练资源消耗过大以及相似性检测性能较差等问题,提出一种基于跨模态协同表示学习的二进制代码相似性检测方法(Cross-Modal coordinated Representation Learning for binary code similarity detection,CMRL).首先,提取汇编指令序列和编程语言片段语义间的对应关系并构建一个对比学习数据集,提出一种面向二进制代码的汇编指令-编程语言协同表示学习方法(Assembly code-Programming language Coordinated representations Learning method,APECL),将源代码的高层次语义作为监督信息,通过对比学习任务使汇编指令编码器APECL-Asm与编程语言编码器生成的特征表示在语义空间中对齐,提升APECL-Asm对汇编指令的语义表示学习效果.然后,设计一种基于图神经网络的二进制函数嵌入向量生成方法,通过语义结构感知网络对APECL-Asm提取到的语义信息和程序实际执行信息进行融合,生成函数嵌入向量.最后,通过计算函数嵌入向量之间的余弦距离对二进制代码进行相似性检测.实验结果表明,与现有方法相比,CMRL对二进制代码相似性检测的Recall@1指标提升8%~33%;针对代码混淆场景下的相似性检测任务,CMRL的Recall@1指标衰减幅度更小,具有更强的抗干扰能力. 展开更多
关键词 二进制代码相似性检测 跨模态 协同表示学习 语义结构感知网络 深度神经网络
在线阅读 下载PDF
C/C++代码跨形态相似性检测技术研究
5
作者 王彦昕 贾鹏 +1 位作者 范希明 彭熙 《信息网络安全》 北大核心 2025年第10期1627-1638,共12页
源码二进制相似性检测在软件开发和软件安全相关的任务中起着重要的作用,如逆向工程、版权侵权检测等。目前,源码二进制相似性检测方法虽然取得了不错的效果,但大多局限在相同架构、编译器、优化级别下的二进制代码与源代码进行相似性... 源码二进制相似性检测在软件开发和软件安全相关的任务中起着重要的作用,如逆向工程、版权侵权检测等。目前,源码二进制相似性检测方法虽然取得了不错的效果,但大多局限在相同架构、编译器、优化级别下的二进制代码与源代码进行相似性检测。而在实际检测中,被检测的二进制文件常常是不同架构、编译器和优化级别的,若对此进行区分再进行检测会带来额外的时间开销,同时会给特征设计提取带来额外的挑战。为此,文章提出了一种基于中间表示的跨架构、编译器和优化级别的源码二进制相似性检测方法,该检测方法在二进制端将二进制转换为能在不同平台和编程语言之间进行代码转换的中间表示,以减少不同编译情况下同源二进制文件的语义差距,使用CodeBERT模型提取源码特征,使用BERT模型和GCN模型提取二进制文件特征,由余弦相似性计算两端相似性。为了验证该检测方法的有效性,文章通过不同编译器、优化级别和编译架构将7个组件编译成二进制文件并构造数据集,在数据集上进行了一对一检测和一对多检测两项任务,并探究了预训练、合并指令、阈值等因素对识别准确性产生的影响。实验结果和分析表明,文章提出的基于中间表示的源码二进制相似性检测方法能够有效解决多种编译情况下同源二进制函数与源码的相似性检测问题。 展开更多
关键词 跨架构 跨编译器 跨优化级别 代码相似性检测
在线阅读 下载PDF
基于Jump-SBERT的二进制代码相似性检测技术研究 被引量:1
6
作者 严尹彤 于璐 +2 位作者 王泰彦 李宇薇 潘祖烈 《计算机科学》 CSCD 北大核心 2024年第5期355-362,共8页
二进制代码相似性检测技术在不同的安全领域中有着重要的作用。针对现有的二进制代码相似性检测方法面临计算开销大且精度低、二进制函数语义信息识别不全面和评估数据集单一等问题,提出了一种基于Jump-SBERT的二进制代码相似性检测技术... 二进制代码相似性检测技术在不同的安全领域中有着重要的作用。针对现有的二进制代码相似性检测方法面临计算开销大且精度低、二进制函数语义信息识别不全面和评估数据集单一等问题,提出了一种基于Jump-SBERT的二进制代码相似性检测技术。Jump-SBERT有两个主要创新点,一是利用孪生网络构建SBERT网络结构,该网络结构能够在降低模型的计算开销的同时保持计算精度不变;二是引入了跳转识别机制,使Jump-SBERT可以学习到二进制函数的图结构信息,从而更加全面地捕获二进制函数的语义信息。实验结果表明,Jump-SBERT在小函数池(32个函数)中的识别准确率可达96.3%,在大函数池(10000个函数)中的识别准确率可达85.1%,比最先进(State-of-the-Art,SOTA)的方法高出36.13%,且Jump-SBERT在大规模二进制代码相似性检测中的表现更加稳定。消融实验表明,两个主要创新点对Jump-SBERT均有积极作用,其中,跳转识别机制的贡献最高可达9.11%。 展开更多
关键词 二进制代码 相似性检测 语义信息 SBERT网络结构 跳转识别机制
在线阅读 下载PDF
基于编译优化和反汇编的程序相似性检测方法 被引量:28
7
作者 赵长海 晏海华 金茂忠 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2008年第6期711-715,共5页
提出了基于编译优化和反汇编的程序相似性检测方法,能够检测出标识符重命名、增加冗余语句、等价的控制结构替换等12种学生常用的抄袭手段.基于该方法,设计和实现了一个程序相似性检测系统BuaaSim,采用编译优化和反汇编技术将源程序转... 提出了基于编译优化和反汇编的程序相似性检测方法,能够检测出标识符重命名、增加冗余语句、等价的控制结构替换等12种学生常用的抄袭手段.基于该方法,设计和实现了一个程序相似性检测系统BuaaSim,采用编译优化和反汇编技术将源程序转化为汇编指令集合,删除和替换汇编指令中对程序本质特征影响不大的易变元素,使用一个与指令顺序无关的决策函数计算程序相似度;还给出一个简单有效的聚类算法,从程序集合中聚类出相似的程序子集.通过与著名的JPlag系统针对两份典型的抄袭样本集进行评测对比,表明本文方法的检测效果具有明显的优势. 展开更多
关键词 抄袭 程序相似性 相似性检测 编译优化
在线阅读 下载PDF
基于自适应序贯相似性检测波形匹配延拓的EMD端点效应抑制 被引量:14
8
作者 杨剑锋 石戈戈 +1 位作者 周天奇 高锋阳 《振动与冲击》 EI CSCD 北大核心 2018年第18期121-125,共5页
针对经验模态分解过程中信号两端出现的严重失真问题,在波形匹配延拓的基础上,提出了一种基于自适应序贯相似性检测波形匹配延拓的端点效应抑制方法。该算法引入基于精度的截止阈值,使算法有了很好的直观性和快速性。再通过对折自适应... 针对经验模态分解过程中信号两端出现的严重失真问题,在波形匹配延拓的基础上,提出了一种基于自适应序贯相似性检测波形匹配延拓的端点效应抑制方法。该算法引入基于精度的截止阈值,使算法有了很好的直观性和快速性。再通过对折自适应调节阈值,进一步减少遍历所需时间。通过对模拟信号和实际工程信号分别进行仿真分析,结果表明该算法能够有效的抑制在经验模态分解过程中出现的端点效应问题,改善分解效果。 展开更多
关键词 经验模态分解 端点效应 序贯相似性检测 波形延拓 自适应
在线阅读 下载PDF
一种基于BP神经网络的代码相似性检测方法 被引量:12
9
作者 熊浩 晏海华 +2 位作者 黄永刚 郭涛 李舟军 《计算机科学》 CSCD 北大核心 2010年第3期159-164,共6页
如何有效地检测程序设计课程作业中的抄袭现象是一个重要的问题。传统的抄袭检测方法主要利用代码的属性或结构信息来度量代码之间的相似性。给出了一种基于误差反向传播(BP算法)多层前向神经网络的代码抄袭检测方法。提取程序之间的7... 如何有效地检测程序设计课程作业中的抄袭现象是一个重要的问题。传统的抄袭检测方法主要利用代码的属性或结构信息来度量代码之间的相似性。给出了一种基于误差反向传播(BP算法)多层前向神经网络的代码抄袭检测方法。提取程序之间的7种比较特征作为神经网络的输入,经过网络计算后得出程序的相似值,并将该值与抄袭决策阈值相比较以判定存在抄袭现象的程序集。实验结果表明,本方法具有很好的检测效果。 展开更多
关键词 抄袭 相似性检测 BP神经网络 比较特征
在线阅读 下载PDF
一种基于静态词法树的程序相似性检测方法 被引量:4
10
作者 熊浩 晏海华 +1 位作者 赫建营 赵长海 《计算机应用研究》 CSCD 北大核心 2009年第4期1316-1319,1326,共5页
传统的程序相似性检测工具并不能有效地检测出一些常见的高级词法、语义理解变换的抄袭方式。首先归纳了学生常用的三类抄袭手段,然后给出了基于词法树的程序相似性检测方法。以C语言为例,总结了生成词法树的结构体,并对程序的词法树进... 传统的程序相似性检测工具并不能有效地检测出一些常见的高级词法、语义理解变换的抄袭方式。首先归纳了学生常用的三类抄袭手段,然后给出了基于词法树的程序相似性检测方法。以C语言为例,总结了生成词法树的结构体,并对程序的词法树进行主数据流、结构控制流和时序流分析后得出结构体依赖图;使用形式化的图同型方法来判断代码是否相似,还给出了一个聚类方法以获得彼此相似的程序子集。通过与JPlag、BuaaSim系统针对一组典型的抄袭样本集进行评测结果对比,本方法具有更好的检测效果。 展开更多
关键词 抄袭 相似性检测 词法树 形式化 聚类
在线阅读 下载PDF
汇编语言程序相似性检测混合算法 被引量:2
11
作者 石陆魁 张军 +1 位作者 陈飞 李金钊 《河北科技大学学报》 CAS 北大核心 2011年第2期138-142,共5页
根据汇编语言自身的特点,提出了结合属性计数和结构度量技术的相似性检测混合算法。在该方法中,将程序段的数目、子程序定义和调用的次数、循环指令loop出现的次数、转移指令出现的次数作为结构信息,73个使用频率较高的关键字作为属性... 根据汇编语言自身的特点,提出了结合属性计数和结构度量技术的相似性检测混合算法。在该方法中,将程序段的数目、子程序定义和调用的次数、循环指令loop出现的次数、转移指令出现的次数作为结构信息,73个使用频率较高的关键字作为属性信息。在从汇编语言程序中提取这些信息后,利用卡方检验来判断2个程序的相似性。实验结果表明,从混合算法得到的结果与人工检测的结果相一致,优于从属性计数和结构度量技术得到的结果。 展开更多
关键词 汇编语言 相似性检测 抄袭 属性计数 结构度量
在线阅读 下载PDF
基于序贯相似性检测算法的彩色印品套准精度检测方法 被引量:6
12
作者 李治江 董川 杨萍 《中国印刷与包装研究》 CAS 2014年第2期30-35,共6页
在印刷工业生产中,套准是影响彩色印品质量的决定性因素。本研究针对印刷生产过程中人工检测套准效率低、精度不高等问题,建立了一种基于序贯相似性检测算法(SSDA)的印刷套准精度快速检测方法。针对常用的叠印型套准标记,首先将采集到... 在印刷工业生产中,套准是影响彩色印品质量的决定性因素。本研究针对印刷生产过程中人工检测套准效率低、精度不高等问题,建立了一种基于序贯相似性检测算法(SSDA)的印刷套准精度快速检测方法。针对常用的叠印型套准标记,首先将采集到的标记图像通过分色得到CMYK四色图像,然后基于SSDA算法对套准标记进行准确定位并实现套准误差的自动检测。实验表明:该方法检测精度和效率较高,能够满足实际工业生产需求。 展开更多
关键词 套准 序贯相似性检测算法 套准精度检测
在线阅读 下载PDF
融合相似性检测的抗遮挡粒子滤波跟踪算法 被引量:2
13
作者 邓利平 肖何 王娟 《计算机工程与应用》 CSCD 北大核心 2022年第14期185-193,共9页
在粒子滤波跟踪算法运行过程中,由于目标遮挡导致丢失目标,将严重地降低跟踪精度与鲁棒性。为了解决此问题,提出了目标丢失状态判定方法和基于改进序贯相似性检测的目标位置重建方法,当检测到目标丢失时,重启跟踪算法。改进序贯相似性... 在粒子滤波跟踪算法运行过程中,由于目标遮挡导致丢失目标,将严重地降低跟踪精度与鲁棒性。为了解决此问题,提出了目标丢失状态判定方法和基于改进序贯相似性检测的目标位置重建方法,当检测到目标丢失时,重启跟踪算法。改进序贯相似性检测使用Bhattacharyya距离代替像素累积误差,更好地适应检测目标发生旋转、形变、缩放等情况。使用OTB-100标准数据集,将该算法和传统粒子滤波跟踪算法、SCM等经典算法比较。实验结果表明,对于含遮挡特性视频序列,本文算法比传统粒子滤波跟踪算法和OTB-100抗遮挡最优算法跟踪成功率分别提高36.6%和3.2%,提升了跟踪过程的稳定性。此外,还将实验结果与最新粒子滤波跟踪研究成果作对比分析。 展开更多
关键词 目标跟踪 粒子滤波 序贯相似性检测 抗遮挡
在线阅读 下载PDF
基于事件的物联网服务相似性检测 被引量:1
14
作者 谢川 王方 《计算机应用》 CSCD 北大核心 2011年第8期2258-2260,共3页
为了检测物联网中冗余服务,节省资源,使用事件和服务关系提出了基于事件服务类图的冗余服务相似性计算模型,在此模型基础上分析了物联网事件上下文及其服务类型,从而得出了面向事件的服务相似度计算方法。由此方法得到了一个静态的服务... 为了检测物联网中冗余服务,节省资源,使用事件和服务关系提出了基于事件服务类图的冗余服务相似性计算模型,在此模型基础上分析了物联网事件上下文及其服务类型,从而得出了面向事件的服务相似度计算方法。由此方法得到了一个静态的服务冗余检测算法。此算法通过检测相似性事件来去除重复的服务函数调用,节约系统服务对资源的占用,从而解决物联网中资源高耗问题。 展开更多
关键词 事件 事件服务类图 服务相似性检测
在线阅读 下载PDF
基于重构相图相似性检测的单相接地故障选相方法 被引量:4
15
作者 赵建文 胡雨佳 +1 位作者 张鸿波 范文璐 《科学技术与工程》 北大核心 2022年第4期1480-1486,共7页
配电线路在发生单相高阻接地故障时,由于故障特征微弱导致传统以求解电气参量为依据的选相方法存在困难。依据故障支路附加状态的三相电流中健全相与故障相存在幅值相角不一的差异,提出一种利用相空间重构方法对故障附加状态的三相电流... 配电线路在发生单相高阻接地故障时,由于故障特征微弱导致传统以求解电气参量为依据的选相方法存在困难。依据故障支路附加状态的三相电流中健全相与故障相存在幅值相角不一的差异,提出一种利用相空间重构方法对故障附加状态的三相电流进行升维重构,然后依据重构相轨迹图的差异作为故障特征进行单相接地故障选相的新方法。该方法可通过重构相轨迹图的差异量化指标就可以实现故障相别的准确选择,无需精确计算幅值相角。选相结果不受系统中性点运行方式、过渡电阻、故障初始相角以及负荷电流的影响。MATLAB仿真及实验结果验证了所提方法的可行性。 展开更多
关键词 故障选相 高阻接地故障 相空间重构 图像差异 相似性检测
在线阅读 下载PDF
用于目标跟踪的双阈值快速序贯相似性检测算法
16
作者 左军毅 张怡哲 王正平 《弹箭与制导学报》 CSCD 北大核心 2010年第6期3-6,共4页
为降低序贯相似性检测算法(SSDA)的计算量,提出了一种双阈值快速SSDA算法(DTSSDA)。DTSSDA增加了误差累积速度阈值,当误差累积速度超过速度阈值时可提前终止本次匹配计算,而速度阈值可利用帧间相关性信息自动地选取。另外算法中还引入... 为降低序贯相似性检测算法(SSDA)的计算量,提出了一种双阈值快速SSDA算法(DTSSDA)。DTSSDA增加了误差累积速度阈值,当误差累积速度超过速度阈值时可提前终止本次匹配计算,而速度阈值可利用帧间相关性信息自动地选取。另外算法中还引入了积分图的概念并采用了从粗到精的搜索策略。实验表明DTSSDA能在保证匹配精度基本不变的前提下使单帧计算量大幅减少,因此更适合于实时目标跟踪。 展开更多
关键词 目标跟踪 序贯相似性检测 双阈值
在线阅读 下载PDF
面向代码相似性检测的相似哈希改进方法 被引量:10
17
作者 李玫 高庆 +3 位作者 马森 张世琨 胡文蕙 张兴明 《软件学报》 EI CSCD 北大核心 2021年第7期2242-2259,共18页
代码相似性检测(code similarity detection)是软件工程领域的基本任务之一,其在剽窃检测、许可证违反检测、软件复用分析以及漏洞发现等方向均起着重要作用.随着软件开源化的普及以及开源代码量的高速增长,开源代码在各个领域的应用日... 代码相似性检测(code similarity detection)是软件工程领域的基本任务之一,其在剽窃检测、许可证违反检测、软件复用分析以及漏洞发现等方向均起着重要作用.随着软件开源化的普及以及开源代码量的高速增长,开源代码在各个领域的应用日益频繁,给传统的代码相似性检测方法带来了新的挑战.现有的一些基于词法、语法、语义的检测方法存在算法较为复杂、对解析工具有依赖性、消耗资源高、可移植性差、候选对比项数量较多等问题,在大规模代码库上有一定的局限性.基于相似哈希(simhash)指纹的代码相似性检测算法将代码降维至1个指纹,能够在数据集规模较大的情况下实现快速相似文件检索,并通过海明距离阈值控制匹配结果的相似度范围.通过实验对现有的基于代码行粒度的相似哈希算法进行验证,发现其在大规模数据集下存在行覆盖问题,即高频行特征对低频行特征的覆盖现象,导致结果精确度较低.受TF-IDF算法思想启发,针对上述问题创新性地提出了分语言行筛选优化方法,通过各种语言的行筛选器对代码文件行序列进行筛选,从而消除高频出现但语义信息包含较少的行对结果的影响.对改进前后方法进行一系列对比实验,结果表明,改进后的方法在海明距离阈值为0~8的情况下都能够实现高精确度的相似文件对检索,当阈值为8时在两个数据集下的精确度较改进前的方法分别提升了98.6%和52.2%.在所建立的130万个开源项目、386486112个项目文件的大规模代码库上进行了实验,结果表明所提方法能够快速检测出待测文件的相似文件结果,平均单个文件检测时间为0.43s,并取得了97%以上的检测精度. 展开更多
关键词 代码相似性检测 代码同源分析 大数据 相似哈希 代码指纹生成
在线阅读 下载PDF
利用N-gram和语义分析的维吾尔语文本相似性检测方法 被引量:2
18
作者 张莹 亚森·艾则孜 吴顺祥 《计算机应用研究》 CSCD 北大核心 2019年第9期2722-2725,2729,共5页
为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,并作为文本模型。采用了潜在语义分析... 为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,并作为文本模型。采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。 展开更多
关键词 维吾尔语 文本相似性检测 N-gram统计模型 潜在语义分析
在线阅读 下载PDF
二进制代码相似性检测技术综述 被引量:12
19
作者 方磊 武泽慧 魏强 《计算机科学》 CSCD 北大核心 2021年第5期1-8,共8页
代码相似性检测常用于代码预测、知识产权保护和漏洞搜索等领域,可分为源代码相似性检测和二进制代码相似性检测。软件的源代码通常难以获得,因此针对二进制代码的相似性检测技术能够适用的场景更加广泛,学术界也先后提出了多种检测技术... 代码相似性检测常用于代码预测、知识产权保护和漏洞搜索等领域,可分为源代码相似性检测和二进制代码相似性检测。软件的源代码通常难以获得,因此针对二进制代码的相似性检测技术能够适用的场景更加广泛,学术界也先后提出了多种检测技术,文中对近年来该领域的研究进行了综述。首先总结代码相似性检测的基本流程和需要解决的难题(如跨编译器、跨编译器优化配置、跨指令架构检测);然后根据关注的代码信息的不同,将当前的二进制代码相似性检测技术分为4类,即基于文本的、基于属性度量的、基于程序逻辑的和基于语义的检测技术,并列举了部分代表性方法和工具(如Karta,discovRE,Ge-nius,Gemini,SAFE等);最后根据发展脉络和最新研究成果,对该领域的发展方向进行了分析和论述。 展开更多
关键词 软件安全 二进制程序 代码相似性检测
在线阅读 下载PDF
序列相似性检测在超声测厚系统中的应用 被引量:1
20
作者 刘凯 王召巴 金永 《仪表技术与传感器》 CSCD 北大核心 2015年第3期82-84,共3页
基于脉冲回波法在超声测厚系统中应用十分广泛,文中提出将序列相似性检测应用于基于脉冲回波法的超声测厚系统中,避免了传统的厚度计算方法中存在的严重的波形局限性。在该算法中,通过计算序列的相似程度,寻找底面两次回波中变化趋势最... 基于脉冲回波法在超声测厚系统中应用十分广泛,文中提出将序列相似性检测应用于基于脉冲回波法的超声测厚系统中,避免了传统的厚度计算方法中存在的严重的波形局限性。在该算法中,通过计算序列的相似程度,寻找底面两次回波中变化趋势最为接近的两段序列,由这两段序列计算超声波在工件中的传播时间,从而计算工件的厚度。通过该算法在实践中的应用,验证了该算法的有效性和准确性。 展开更多
关键词 脉冲回波法 超声测厚系统 序列相似性检测
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部