期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于深度学习的相似语言短文本的语种识别方法 被引量:2
1
作者 张琳琳 杨雅婷 +2 位作者 陈沾衡 潘一荣 李毓 《计算机应用与软件》 北大核心 2020年第2期124-129,176,共7页
在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文本语种识别的质量。针对以上问题,提出一种基于深度学习的字符... 在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文本语种识别的质量。针对以上问题,提出一种基于深度学习的字符级短文本语种识别方法。采用卷积神经网络从字符向量中获取词中字符组合信息;通过长短期记忆网络获取词与词之间的特征信息;使用全连接网络实现相似语言的语种识别。在维吾尔语、哈萨克语以及DSL2017数据集上的实验结果表明,该方法可以有效地提高相似语言短文本的识别精度。 展开更多
关键词 语种识别 相似语言 短文本 神经网络 文本分类
在线阅读 下载PDF
基于WordNet的中泰文跨语言文本相似度计算 被引量:12
2
作者 石杰 周兰江 +1 位作者 线岩团 余正涛 《中文信息学报》 CSCD 北大核心 2016年第4期65-70,共6页
文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该... 文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该文提出一种基于WordNet的中泰文跨语言文本相似度的计算方法。首先对中泰文本进行预处理和特征选择,然后利用语义词典WordNet将中泰文本转换成中间层语言,最后在中间层上计算中泰文本的相似度。实验结果表明,该方法准确率达到82%。 展开更多
关键词 WORDNET 中间层语言 语言文本相似
在线阅读 下载PDF
一种检测多语言文本相似重复记录的综合方法 被引量:26
3
作者 俞荣华 田增平 周傲英 《计算机科学》 CSCD 北大核心 2002年第1期118-121,共4页
1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输... 1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性. 展开更多
关键词 数据仓库 数据挖掘 数据库 信息重复 语言文本相似重复记录方法 检测
在线阅读 下载PDF
跨语言相似文档检索 被引量:4
4
作者 王洪俊 施水才 +1 位作者 俞士汶 肖诗斌 《中文信息学报》 CSCD 北大核心 2007年第1期30-37,共8页
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种... 检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。 展开更多
关键词 计算机应用 中文信息处理 语言相似文档检索 文档相似 双语文档对齐
在线阅读 下载PDF
基于双语LDA的跨语言文本相似度计算方法研究 被引量:7
5
作者 程蔚 线岩团 +2 位作者 周兰江 余正涛 王红斌 《计算机工程与科学》 CSCD 北大核心 2017年第5期978-983,共6页
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相... 基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。 展开更多
关键词 双语LDA 语言文本相似 余弦相似 主题频率-逆文档频率
在线阅读 下载PDF
一种基于实体描述和知识向量相似度的跨语言实体对齐模型 被引量:2
6
作者 康世泽 吉立新 +1 位作者 刘树新 丁悦航 《电子学报》 EI CAS CSCD 北大核心 2019年第9期1841-1847,共7页
跨语言实体对齐旨在找到不同语言知识图谱中指向现实世界同一事物的实体.传统的跨语言实体对齐方法通常仅依靠知识图谱内部的结构信息,但实际上一些知识图谱提供的实体描述信息也可以被利用.本文提出了一种结合知识图谱的内部结构和实... 跨语言实体对齐旨在找到不同语言知识图谱中指向现实世界同一事物的实体.传统的跨语言实体对齐方法通常仅依靠知识图谱内部的结构信息,但实际上一些知识图谱提供的实体描述信息也可以被利用.本文提出了一种结合知识图谱的内部结构和实体描述信息共同进行跨语言实体对齐的模型.该模型首先通过训练基于知识图谱结构信息的知识向量找到可能被对齐的实体对,再结合实体描述信息利用改进后的共享参数模型选出最终的对齐实体,最后通过迭代对齐的方法重复前两个步骤找到更多的对齐实体直到训练结束.实验结果表明,与基准算法相比,本文所提模型在跨语言实体对齐任务上可以取得相对不错的结果. 展开更多
关键词 语言实体对齐 知识向量 语言实体描述相似
在线阅读 下载PDF
代码相似性检测技术综述 被引量:3
7
作者 孙祥杰 魏强 +1 位作者 王奕森 杜江 《计算机应用》 CSCD 北大核心 2024年第4期1248-1258,共11页
代码复用为软件开发带来便利的同时也引入了安全风险,如加速漏洞传播、代码恶意抄袭等,代码相似性检测技术通过分析代码间词法、语法、语义等信息计算代码相似程度,是判断代码复用最有效的技术之一,也是近年发展较快的程序安全分析技术... 代码复用为软件开发带来便利的同时也引入了安全风险,如加速漏洞传播、代码恶意抄袭等,代码相似性检测技术通过分析代码间词法、语法、语义等信息计算代码相似程度,是判断代码复用最有效的技术之一,也是近年发展较快的程序安全分析技术。首先,系统梳理代码相似性检测的近期技术进展,根据目标代码是否开源,将代码相似性检测技术分为源码相似性检测和二进制代码相似性检测,又根据编程语言、指令集的不同进行二次细分;其次,总结每一种技术的思路和研究成果,分析机器学习技术在代码相似性检测领域成功的案例,并讨论现有技术的优势与不足;最后,给出代码相似性检测技术的发展趋势,为相关研究人员提供参考。 展开更多
关键词 二进制代码相似 源代码相似 语言代码相似 深度学习 代码克隆
在线阅读 下载PDF
基于局部和全局语义融合的跨语言句子语义相似度计算模型 被引量:14
8
作者 李霞 刘承标 +1 位作者 章友豪 蒋盛益 《中文信息学报》 CSCD 北大核心 2019年第6期18-26,共9页
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获... 跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。 展开更多
关键词 语言文本句子语义相似 自注意力机制 门控卷积神经网络
在线阅读 下载PDF
基于编辑图的XML文档相似性研究
9
作者 徐沛娟 齐福慧 +1 位作者 李卓 王利民 《计算机工程与应用》 CSCD 北大核心 2016年第2期81-85,共5页
目前关于XML文档相似性算法有很多种,其中基于编辑距离的方法是很重要的一类。目前已发表的基于编辑距离的算法中,编辑图算法由于其计算高效率的特点成为研究的出发点。首先介绍了编辑图算法的思想,由于它在计算过程中对同层兄弟节点的... 目前关于XML文档相似性算法有很多种,其中基于编辑距离的方法是很重要的一类。目前已发表的基于编辑距离的算法中,编辑图算法由于其计算高效率的特点成为研究的出发点。首先介绍了编辑图算法的思想,由于它在计算过程中对同层兄弟节点的顺序有很强的依赖性,因此不能准确有效地比较数据无序的数据中心的XML文档相似性。针对该问题,在编辑图算法思想的基础上,结合路径算法的思想提出拆分编辑图算法。实验结果表明,拆分编辑图算法降低了编辑图算法中对兄弟节点次序的依赖性,更适合于数据中心的XML文档相似性比较,而且所得结果更加准确有效。 展开更多
关键词 可扩展标记语言(XML) 可扩展标记语言(XML)相似 编辑图 编辑脚本 拆分 子路径集
在线阅读 下载PDF
晚期二语者句法加工过程的调节因素及其效应 被引量:6
10
作者 常欣 王沛 《心理科学进展》 CSSCI CSCD 北大核心 2015年第2期225-233,共9页
针对晚期二语者句法加工能力的发展普遍存在困难这一现象,近年来采用以ERP为核心技术的脑认知研究发现,二语者的二语熟练度、一语和二语间具体的句法结构的相似程度、以及以工作记忆为核心的个体认知能力等因素起着各自独立而又相互影... 针对晚期二语者句法加工能力的发展普遍存在困难这一现象,近年来采用以ERP为核心技术的脑认知研究发现,二语者的二语熟练度、一语和二语间具体的句法结构的相似程度、以及以工作记忆为核心的个体认知能力等因素起着各自独立而又相互影响的调节作用,并且形成了浅层结构理论所主张的晚期二语者的句法加工与母语者有着本质差别的"定性说"与统一竞争模型所主张的晚期二语者和母语者在句法加工上没有本质差别的"量变说"两种理论分野,二者的分歧集中表现为晚期二语者能否最终形成类母语水平的二语句法加工模式。为此,需要开展以三个因素如何交互作用为主体的跨语言(二语与一语性质的多样性)研究。 展开更多
关键词 晚期二语者 句法加工 二语熟练度 语言间句法结构相似 工作记忆
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部