-
题名基于双语协同训练的最大名词短语识别研究
被引量:5
- 1
-
-
作者
李业刚
黄河燕
史树敏
鉴萍
苏超
-
机构
北京理工大学北京市海量语言信息处理与云计算应用工程技术研究中心
北京理工大学计算机学院
山东理工大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2015年第7期1615-1625,共11页
-
基金
国家重点基础研究发展计划(973)(2013CB329300)
国家自然科学基金(61132009
+1 种基金
61201352
61202244)
-
文摘
针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%.
-
关键词
最大名词短语
半监督学习
标注投射
双语协同训练
短语识别
-
Keywords
maximal-length noun phrase
semi-supervised learning
label projection
bilingual co-training
phrase identifieation
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于机器翻译的双语协同关系抽取
被引量:2
- 2
-
-
作者
胡亚楠
惠浩添
钱龙华
朱巧明
-
机构
苏州大学计算机科学与技术学院自然语言处理实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第3期662-665,共4页
-
基金
国家自然科学基金资助项目(61373096
61331011
+1 种基金
61273320)
江苏省高校自然科学重大项目(11KJA520003)
-
文摘
传统的弱指导关系抽取研究主要集中于单语言内部。为了充分利用语言之间的互补性来减轻对大规模训练数据的需求,提出一种双语协同训练的关系分类方法。针对小规模标注语料和一定规模的未标注语料,通过机器翻译和实体对齐产生关系实例的双语视图,最后利用协同训练得到两种语言的分类模型。在ACE RDC 2005中英文语料上的实验表明,双语协同训练方法可以同时提高中文和英文的关系分类性能,并且减少对于标注训练数据量的需求。
-
关键词
双语协同训练
机器翻译
实体对齐
-
Keywords
bilingual co-training
machine translation
entity alignment
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于平行语料库的双语协同中文关系抽取
- 3
-
-
作者
郭勃
冯旭鹏
刘利军
黄青松
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学教育技术与网络中心
云南省计算机技术应用重点实验室(昆明理工大学)
-
出处
《计算机应用》
CSCD
北大核心
2017年第4期1051-1055,共5页
-
基金
国家自然科学基金资助项目(81360230
81560296)~~
-
文摘
针对在中文资源的关系抽取中,由于中文长句句式复杂,句法特征提取难度大、准确度低等问题,提出了一种基于平行语料库的双语协同中文关系抽取方法。首先在中英双语平行语料库中的英文语料上利用英文成熟的句法分析工具,将得到依存句法特征用于英文关系抽取分类器的训练,然后与利用适合中文的n-gram特征在中文语料上训练的中文关系抽取分类器构成双语视图,最后再依靠标注映射后的平行语料库,将彼此高可靠性的语料加入对方训练语料进行双语协同训练,最终得到一个性能更好的中文关系抽取分类模型。通过对中文测试语料进行实验,结果表明该方法提高了基于弱监督方法的中文关系抽取性能,其F值提高了3.9个百分点。
-
关键词
弱监督学习
关系抽取
N-GRAM
平行语料库
双语协同训练
-
Keywords
weakly-supervised learning
relation extraction
n-gram
parallel corpus
bilingual collaborative training
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-