期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度学习的相似语言短文本的语种识别方法
被引量:
2
1
作者
张琳琳
杨雅婷
+2 位作者
陈沾衡
潘一荣
李毓
《计算机应用与软件》
北大核心
2020年第2期124-129,176,共7页
在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文本语种识别的质量。针对以上问题,提出一种基于深度学习的字符...
在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文本语种识别的质量。针对以上问题,提出一种基于深度学习的字符级短文本语种识别方法。采用卷积神经网络从字符向量中获取词中字符组合信息;通过长短期记忆网络获取词与词之间的特征信息;使用全连接网络实现相似语言的语种识别。在维吾尔语、哈萨克语以及DSL2017数据集上的实验结果表明,该方法可以有效地提高相似语言短文本的识别精度。
展开更多
关键词
语种识别
相似语言
短文本
神经网络
文本分类
在线阅读
下载PDF
职称材料
基于WordNet的中泰文跨语言文本相似度计算
被引量:
12
2
作者
石杰
周兰江
+1 位作者
线岩团
余正涛
《中文信息学报》
CSCD
北大核心
2016年第4期65-70,共6页
文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该...
文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该文提出一种基于WordNet的中泰文跨语言文本相似度的计算方法。首先对中泰文本进行预处理和特征选择,然后利用语义词典WordNet将中泰文本转换成中间层语言,最后在中间层上计算中泰文本的相似度。实验结果表明,该方法准确率达到82%。
展开更多
关键词
WORDNET
中间层
语言
跨
语言
文本
相似
度
在线阅读
下载PDF
职称材料
一种检测多语言文本相似重复记录的综合方法
被引量:
26
3
作者
俞荣华
田增平
周傲英
《计算机科学》
CSCD
北大核心
2002年第1期118-121,共4页
1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输...
1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性.
展开更多
关键词
数据仓库
数据挖掘
数据库
信息重复
多
语言
文本
相似
重复记录方法
检测
在线阅读
下载PDF
职称材料
跨语言相似文档检索
被引量:
4
4
作者
王洪俊
施水才
+1 位作者
俞士汶
肖诗斌
《中文信息学报》
CSCD
北大核心
2007年第1期30-37,共8页
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种...
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。
展开更多
关键词
计算机应用
中文信息处理
跨
语言
相似
文档检索
文档
相似
度
双语文档对齐
在线阅读
下载PDF
职称材料
基于双语LDA的跨语言文本相似度计算方法研究
被引量:
7
5
作者
程蔚
线岩团
+2 位作者
周兰江
余正涛
王红斌
《计算机工程与科学》
CSCD
北大核心
2017年第5期978-983,共6页
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相...
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。
展开更多
关键词
双语LDA
跨
语言
文本
相似
度
余弦
相似
度
主题频率-逆文档频率
在线阅读
下载PDF
职称材料
一种基于实体描述和知识向量相似度的跨语言实体对齐模型
被引量:
2
6
作者
康世泽
吉立新
+1 位作者
刘树新
丁悦航
《电子学报》
EI
CAS
CSCD
北大核心
2019年第9期1841-1847,共7页
跨语言实体对齐旨在找到不同语言知识图谱中指向现实世界同一事物的实体.传统的跨语言实体对齐方法通常仅依靠知识图谱内部的结构信息,但实际上一些知识图谱提供的实体描述信息也可以被利用.本文提出了一种结合知识图谱的内部结构和实...
跨语言实体对齐旨在找到不同语言知识图谱中指向现实世界同一事物的实体.传统的跨语言实体对齐方法通常仅依靠知识图谱内部的结构信息,但实际上一些知识图谱提供的实体描述信息也可以被利用.本文提出了一种结合知识图谱的内部结构和实体描述信息共同进行跨语言实体对齐的模型.该模型首先通过训练基于知识图谱结构信息的知识向量找到可能被对齐的实体对,再结合实体描述信息利用改进后的共享参数模型选出最终的对齐实体,最后通过迭代对齐的方法重复前两个步骤找到更多的对齐实体直到训练结束.实验结果表明,与基准算法相比,本文所提模型在跨语言实体对齐任务上可以取得相对不错的结果.
展开更多
关键词
跨
语言
实体对齐
知识向量
跨
语言
实体描述
相似
度
在线阅读
下载PDF
职称材料
代码相似性检测技术综述
被引量:
3
7
作者
孙祥杰
魏强
+1 位作者
王奕森
杜江
《计算机应用》
CSCD
北大核心
2024年第4期1248-1258,共11页
代码复用为软件开发带来便利的同时也引入了安全风险,如加速漏洞传播、代码恶意抄袭等,代码相似性检测技术通过分析代码间词法、语法、语义等信息计算代码相似程度,是判断代码复用最有效的技术之一,也是近年发展较快的程序安全分析技术...
代码复用为软件开发带来便利的同时也引入了安全风险,如加速漏洞传播、代码恶意抄袭等,代码相似性检测技术通过分析代码间词法、语法、语义等信息计算代码相似程度,是判断代码复用最有效的技术之一,也是近年发展较快的程序安全分析技术。首先,系统梳理代码相似性检测的近期技术进展,根据目标代码是否开源,将代码相似性检测技术分为源码相似性检测和二进制代码相似性检测,又根据编程语言、指令集的不同进行二次细分;其次,总结每一种技术的思路和研究成果,分析机器学习技术在代码相似性检测领域成功的案例,并讨论现有技术的优势与不足;最后,给出代码相似性检测技术的发展趋势,为相关研究人员提供参考。
展开更多
关键词
二进制代码
相似
性
源代码
相似
性
跨
语言
代码
相似
性
深度学习
代码克隆
在线阅读
下载PDF
职称材料
基于局部和全局语义融合的跨语言句子语义相似度计算模型
被引量:
14
8
作者
李霞
刘承标
+1 位作者
章友豪
蒋盛益
《中文信息学报》
CSCD
北大核心
2019年第6期18-26,共9页
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获...
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。
展开更多
关键词
跨
语言
文本句子语义
相似
度
自注意力机制
门控卷积神经网络
在线阅读
下载PDF
职称材料
基于编辑图的XML文档相似性研究
9
作者
徐沛娟
齐福慧
+1 位作者
李卓
王利民
《计算机工程与应用》
CSCD
北大核心
2016年第2期81-85,共5页
目前关于XML文档相似性算法有很多种,其中基于编辑距离的方法是很重要的一类。目前已发表的基于编辑距离的算法中,编辑图算法由于其计算高效率的特点成为研究的出发点。首先介绍了编辑图算法的思想,由于它在计算过程中对同层兄弟节点的...
目前关于XML文档相似性算法有很多种,其中基于编辑距离的方法是很重要的一类。目前已发表的基于编辑距离的算法中,编辑图算法由于其计算高效率的特点成为研究的出发点。首先介绍了编辑图算法的思想,由于它在计算过程中对同层兄弟节点的顺序有很强的依赖性,因此不能准确有效地比较数据无序的数据中心的XML文档相似性。针对该问题,在编辑图算法思想的基础上,结合路径算法的思想提出拆分编辑图算法。实验结果表明,拆分编辑图算法降低了编辑图算法中对兄弟节点次序的依赖性,更适合于数据中心的XML文档相似性比较,而且所得结果更加准确有效。
展开更多
关键词
可扩展标记
语言
(XML)
可扩展标记
语言
(XML)
相似
性
编辑图
编辑脚本
拆分
子路径集
在线阅读
下载PDF
职称材料
晚期二语者句法加工过程的调节因素及其效应
被引量:
6
10
作者
常欣
王沛
《心理科学进展》
CSSCI
CSCD
北大核心
2015年第2期225-233,共9页
针对晚期二语者句法加工能力的发展普遍存在困难这一现象,近年来采用以ERP为核心技术的脑认知研究发现,二语者的二语熟练度、一语和二语间具体的句法结构的相似程度、以及以工作记忆为核心的个体认知能力等因素起着各自独立而又相互影...
针对晚期二语者句法加工能力的发展普遍存在困难这一现象,近年来采用以ERP为核心技术的脑认知研究发现,二语者的二语熟练度、一语和二语间具体的句法结构的相似程度、以及以工作记忆为核心的个体认知能力等因素起着各自独立而又相互影响的调节作用,并且形成了浅层结构理论所主张的晚期二语者的句法加工与母语者有着本质差别的"定性说"与统一竞争模型所主张的晚期二语者和母语者在句法加工上没有本质差别的"量变说"两种理论分野,二者的分歧集中表现为晚期二语者能否最终形成类母语水平的二语句法加工模式。为此,需要开展以三个因素如何交互作用为主体的跨语言(二语与一语性质的多样性)研究。
展开更多
关键词
晚期二语者
句法加工
二语熟练度
语言
间句法结构
相似
性
工作记忆
在线阅读
下载PDF
职称材料
题名
基于深度学习的相似语言短文本的语种识别方法
被引量:
2
1
作者
张琳琳
杨雅婷
陈沾衡
潘一荣
李毓
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆理化技术研究所新疆民族语音语言信息处理实验室
出处
《计算机应用与软件》
北大核心
2020年第2期124-129,176,共7页
基金
国家自然科学基金项目(U1703133)
中科院西部之光项目(2017-XBQNXZ-A-005)
+2 种基金
中国科学院青年创新促进会项目(2017472)
新疆维吾尔自治区重大科技专项(2016A03007-3)
新疆维吾尔自治区高层次人才引进工程项目(Y839031201)。
文摘
在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文本语种识别的质量。针对以上问题,提出一种基于深度学习的字符级短文本语种识别方法。采用卷积神经网络从字符向量中获取词中字符组合信息;通过长短期记忆网络获取词与词之间的特征信息;使用全连接网络实现相似语言的语种识别。在维吾尔语、哈萨克语以及DSL2017数据集上的实验结果表明,该方法可以有效地提高相似语言短文本的识别精度。
关键词
语种识别
相似语言
短文本
神经网络
文本分类
Keywords
Language identification
Similar language
Short text
Neural network
Text categorization
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
在线阅读
下载PDF
职称材料
题名
基于WordNet的中泰文跨语言文本相似度计算
被引量:
12
2
作者
石杰
周兰江
线岩团
余正涛
机构
昆明理工大学信息工程与自动化学院
昆明理工大学智能信息处理重点实验室
出处
《中文信息学报》
CSCD
北大核心
2016年第4期65-70,共6页
基金
国家自然科学基金(61363044)
文摘
文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该文提出一种基于WordNet的中泰文跨语言文本相似度的计算方法。首先对中泰文本进行预处理和特征选择,然后利用语义词典WordNet将中泰文本转换成中间层语言,最后在中间层上计算中泰文本的相似度。实验结果表明,该方法准确率达到82%。
关键词
WORDNET
中间层
语言
跨
语言
文本
相似
度
Keywords
WordNet
middle layer language
cross-language text similarity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种检测多语言文本相似重复记录的综合方法
被引量:
26
3
作者
俞荣华
田增平
周傲英
机构
复旦大学计算机系
出处
《计算机科学》
CSCD
北大核心
2002年第1期118-121,共4页
文摘
1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性.
关键词
数据仓库
数据挖掘
数据库
信息重复
多
语言
文本
相似
重复记录方法
检测
Keywords
Approximate duplicates records, Clustering, Pairwise comparison, Priority queue
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
跨语言相似文档检索
被引量:
4
4
作者
王洪俊
施水才
俞士汶
肖诗斌
机构
北京大学计算语言研究所
北京信息工程学院中文信息处理研究中心
出处
《中文信息学报》
CSCD
北大核心
2007年第1期30-37,共8页
基金
国家973项目(2004CB318102)
863项目(2001AA114210
+3 种基金
2002AA117010)
北京市重大科技计划项目(H030130050610)
国家自然科学基金资助项目(60272084)
北京市教委重大项目(KZ200310772013)
文摘
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。
关键词
计算机应用
中文信息处理
跨
语言
相似
文档检索
文档
相似
度
双语文档对齐
Keywords
computer application
Chinese information processing
crossqanguage similar document retrieval
document similarity
bilingual document alignment
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于双语LDA的跨语言文本相似度计算方法研究
被引量:
7
5
作者
程蔚
线岩团
周兰江
余正涛
王红斌
机构
昆明理工大学信息工程与自动化学院
昆明理工大学智能信息处理重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2017年第5期978-983,共6页
基金
国家自然科学基金(61363044
61462054)
+2 种基金
云南省科技厅面上项目(2015FB135)
云南省教育厅科学研究基金(2014Z021)
昆明理工大学省级人培项目(KKSY201403028)
文摘
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。
关键词
双语LDA
跨
语言
文本
相似
度
余弦
相似
度
主题频率-逆文档频率
Keywords
bilingual LDA
cross-lingual document similarity calculation
cosine similarity
topic fre-quency-inverse document frequency
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种基于实体描述和知识向量相似度的跨语言实体对齐模型
被引量:
2
6
作者
康世泽
吉立新
刘树新
丁悦航
机构
战略支援部队信息工程大学
出处
《电子学报》
EI
CAS
CSCD
北大核心
2019年第9期1841-1847,共7页
基金
国家自然科学基金(No.61521003,No.61601513)
文摘
跨语言实体对齐旨在找到不同语言知识图谱中指向现实世界同一事物的实体.传统的跨语言实体对齐方法通常仅依靠知识图谱内部的结构信息,但实际上一些知识图谱提供的实体描述信息也可以被利用.本文提出了一种结合知识图谱的内部结构和实体描述信息共同进行跨语言实体对齐的模型.该模型首先通过训练基于知识图谱结构信息的知识向量找到可能被对齐的实体对,再结合实体描述信息利用改进后的共享参数模型选出最终的对齐实体,最后通过迭代对齐的方法重复前两个步骤找到更多的对齐实体直到训练结束.实验结果表明,与基准算法相比,本文所提模型在跨语言实体对齐任务上可以取得相对不错的结果.
关键词
跨
语言
实体对齐
知识向量
跨
语言
实体描述
相似
度
Keywords
cross-lingual entity alignment
knowledge embeddings
cross-lingual description similarity
分类号
TP393.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
代码相似性检测技术综述
被引量:
3
7
作者
孙祥杰
魏强
王奕森
杜江
机构
郑州大学网络空间安全学院
信息工程大学网络空间安全学院
出处
《计算机应用》
CSCD
北大核心
2024年第4期1248-1258,共11页
基金
国家重点研发计划项目(2019QY0502)。
文摘
代码复用为软件开发带来便利的同时也引入了安全风险,如加速漏洞传播、代码恶意抄袭等,代码相似性检测技术通过分析代码间词法、语法、语义等信息计算代码相似程度,是判断代码复用最有效的技术之一,也是近年发展较快的程序安全分析技术。首先,系统梳理代码相似性检测的近期技术进展,根据目标代码是否开源,将代码相似性检测技术分为源码相似性检测和二进制代码相似性检测,又根据编程语言、指令集的不同进行二次细分;其次,总结每一种技术的思路和研究成果,分析机器学习技术在代码相似性检测领域成功的案例,并讨论现有技术的优势与不足;最后,给出代码相似性检测技术的发展趋势,为相关研究人员提供参考。
关键词
二进制代码
相似
性
源代码
相似
性
跨
语言
代码
相似
性
深度学习
代码克隆
Keywords
binary code similarity
source code similarity
cross language code similarity
deep learning
code clone
分类号
TP311.5 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于局部和全局语义融合的跨语言句子语义相似度计算模型
被引量:
14
8
作者
李霞
刘承标
章友豪
蒋盛益
机构
广州市非通用语种智能处理重点实验室
广东外语外贸大学信息科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2019年第6期18-26,共9页
基金
国家自然科学基金(61402119,61572145)
文摘
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。
关键词
跨
语言
文本句子语义
相似
度
自注意力机制
门控卷积神经网络
Keywords
cross-lingual semantic sentence similarity
self-attention mechanism
gated convolutional neural network
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于编辑图的XML文档相似性研究
9
作者
徐沛娟
齐福慧
李卓
王利民
机构
吉林大学计算机科学与技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2016年第2期81-85,共5页
基金
国家科技支撑计划基金项目(No.2006BAK01A33)
国家自然科学基金(No.61272209)
吉林省科技发展计划基金项目(No.20090704)
文摘
目前关于XML文档相似性算法有很多种,其中基于编辑距离的方法是很重要的一类。目前已发表的基于编辑距离的算法中,编辑图算法由于其计算高效率的特点成为研究的出发点。首先介绍了编辑图算法的思想,由于它在计算过程中对同层兄弟节点的顺序有很强的依赖性,因此不能准确有效地比较数据无序的数据中心的XML文档相似性。针对该问题,在编辑图算法思想的基础上,结合路径算法的思想提出拆分编辑图算法。实验结果表明,拆分编辑图算法降低了编辑图算法中对兄弟节点次序的依赖性,更适合于数据中心的XML文档相似性比较,而且所得结果更加准确有效。
关键词
可扩展标记
语言
(XML)
可扩展标记
语言
(XML)
相似
性
编辑图
编辑脚本
拆分
子路径集
Keywords
eXtensible Markup Language(XML)
eXtensible Markup Language(XML)similarity
edit graph
edit script
split
sub-path sets
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
晚期二语者句法加工过程的调节因素及其效应
被引量:
6
10
作者
常欣
王沛
机构
上海交通大学外国语学院
上海师范大学心理学系
出处
《心理科学进展》
CSSCI
CSCD
北大核心
2015年第2期225-233,共9页
基金
国家自然科学基金青年项目"晚期汉英二语者句法加工的调节机制:行为与ERP研究"(31300928)
上海市教委科研创新重点项目"二语熟练度与语言间句法结构通达性对晚期汉英双语者英语被动句加工过程的影响"(13ZS092)
+1 种基金
上海交通大学2013年度文理交叉项目"语言声调感知与音乐音调感知的关系:行为与ERPs"(14X190040003)
2013年度上海交通大学晨星学者计划项目资助
文摘
针对晚期二语者句法加工能力的发展普遍存在困难这一现象,近年来采用以ERP为核心技术的脑认知研究发现,二语者的二语熟练度、一语和二语间具体的句法结构的相似程度、以及以工作记忆为核心的个体认知能力等因素起着各自独立而又相互影响的调节作用,并且形成了浅层结构理论所主张的晚期二语者的句法加工与母语者有着本质差别的"定性说"与统一竞争模型所主张的晚期二语者和母语者在句法加工上没有本质差别的"量变说"两种理论分野,二者的分歧集中表现为晚期二语者能否最终形成类母语水平的二语句法加工模式。为此,需要开展以三个因素如何交互作用为主体的跨语言(二语与一语性质的多样性)研究。
关键词
晚期二语者
句法加工
二语熟练度
语言
间句法结构
相似
性
工作记忆
Keywords
second language learners
syntactic processing
second language proficiency
cross-linguistic similarity
working memory
分类号
B842 [哲学宗教—基础心理学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度学习的相似语言短文本的语种识别方法
张琳琳
杨雅婷
陈沾衡
潘一荣
李毓
《计算机应用与软件》
北大核心
2020
2
在线阅读
下载PDF
职称材料
2
基于WordNet的中泰文跨语言文本相似度计算
石杰
周兰江
线岩团
余正涛
《中文信息学报》
CSCD
北大核心
2016
12
在线阅读
下载PDF
职称材料
3
一种检测多语言文本相似重复记录的综合方法
俞荣华
田增平
周傲英
《计算机科学》
CSCD
北大核心
2002
26
在线阅读
下载PDF
职称材料
4
跨语言相似文档检索
王洪俊
施水才
俞士汶
肖诗斌
《中文信息学报》
CSCD
北大核心
2007
4
在线阅读
下载PDF
职称材料
5
基于双语LDA的跨语言文本相似度计算方法研究
程蔚
线岩团
周兰江
余正涛
王红斌
《计算机工程与科学》
CSCD
北大核心
2017
7
在线阅读
下载PDF
职称材料
6
一种基于实体描述和知识向量相似度的跨语言实体对齐模型
康世泽
吉立新
刘树新
丁悦航
《电子学报》
EI
CAS
CSCD
北大核心
2019
2
在线阅读
下载PDF
职称材料
7
代码相似性检测技术综述
孙祥杰
魏强
王奕森
杜江
《计算机应用》
CSCD
北大核心
2024
3
在线阅读
下载PDF
职称材料
8
基于局部和全局语义融合的跨语言句子语义相似度计算模型
李霞
刘承标
章友豪
蒋盛益
《中文信息学报》
CSCD
北大核心
2019
14
在线阅读
下载PDF
职称材料
9
基于编辑图的XML文档相似性研究
徐沛娟
齐福慧
李卓
王利民
《计算机工程与应用》
CSCD
北大核心
2016
0
在线阅读
下载PDF
职称材料
10
晚期二语者句法加工过程的调节因素及其效应
常欣
王沛
《心理科学进展》
CSSCI
CSCD
北大核心
2015
6
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部