-
题名汉语最长名词短语的自动识别
被引量:37
- 1
-
-
作者
周强
孙茂松
黄昌宁
-
机构
智能技术与系统国家重点实验室
清华大学计算机科学与技术系
-
出处
《软件学报》
EI
CSCD
北大核心
2000年第2期195-201,共7页
-
基金
国家自然科学基金! (No.6 970 5 0 0 5 )
中国博士后科学基金! (No.970 0 5 )资助
-
文摘
通过对包含 5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析 ,提出了两种有效的汉语最长名词短语自动识别算法 :基于边界分布概率的识别算法和基于内部结构组合的识别算法 .实验结果显示 ,后者的识别正确率和召回率分别达到了 85.4 %和 82 .3% ,取得了较好的自动识别效果 .关键词 最长名词短语 ,边界识别 ,句法分析 .
-
关键词
最长名词短语
自然语言处理
汉语
自动识别
-
Keywords
Maximal noun phrase, boundary identification, syntax parsing.
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双向标注融合的汉语最长短语识别方法
被引量:9
- 2
-
-
作者
鉴萍
宗成庆
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《智能系统学报》
2009年第5期406-413,共8页
-
基金
国家自然科学基金资助项目(60736014
90820303)
+2 种基金
"十一五"国家科技支撑计划项目(2006BAH03B02)
国家"863"计划资助项目(2006AA010108-4)
中国新加坡数字媒体研究院资助项目
-
文摘
汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于"分歧点"的概率融合策略以融合该双向标注结果.实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果.
-
关键词
最长名词短语识别
介词短语识别
序列标注
双向标注
分歧点
-
Keywords
maximal-length noun phrase identification
prepositional phrase identification
sequence labeling
bidi- rectional labeling
fork position
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名CRFs融合语义信息的英语功能名词短语识别
被引量:2
- 3
-
-
作者
马建军
裴家欢
黄德根
-
机构
大连理工大学外国语学院
大连理工大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2016年第6期59-66,共8页
-
基金
教育部人文社会科学研究规划基金(13YJAZH062)
-
文摘
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。
-
关键词
功能名词短语
名词短语识别
条件随机域模型
语义信息
-
Keywords
functional noun phrases
noun phrase identification
CRFs
semantic information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于隐结构感知的并列名词短语识别研究
被引量:3
- 4
-
-
作者
王浩
姬东鸿
黄江平
-
机构
武汉大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第4期217-221,227,共6页
-
基金
国家自然科学基金重点项目"篇章级中文语义分析理论与方法"(61133012)
国家自然科学基金面上项目"汉语语篇连贯的事件链模型研究"(61373108)
-
文摘
针对现有并列名词短语识别不能处理短语序列隐含信息的情况,提出一种新的并列名词短语识别方法。采用隐结构感知模型与条件随机场模型,识别并列名词短语序列以及序列中用于连接并列名词短语的连词和标点。针对并列名词短语序列进行任务描述,建立语料库并选择典型的并列名词短语识别特征进行实验。结果表明,隐结构感知模型由于加入序列中的隐含信息,相比传统条件随机场模型在并列名词短语识别中更有优势,F度量值达到86.36%,进而证明该模型能够用于以信息抽取为导向的并列名词短语识别。
-
关键词
并列名词短语
隐结构感知
条件随机场
序列识别
边界识别
-
Keywords
coordinate noun phrase
Latent Structured Perceptron(LSP)
Conditional Random Fields(CRF)
sequence identification
boundary identification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名以“的”字结构为核心的最长名词短语识别研究
被引量:1
- 5
-
-
作者
钱小飞
-
机构
中国传媒大学文学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第18期138-141,共4页
-
文摘
以"的"字结构为核心的最长名词短语是汉语最长名词短语的一个特殊子类。以该短语的自动识别为基础重新分化了汉语MNP的识别任务。在考察其结构和分布特征的基础上,提出"先识别右边界,识别成果参与左边界识别"的策略,并使用边界分布概率模型分治了左右边界。实验基于85万字的新闻语料上进行训练,并在42万字的同质语料上进行了开放测试,取得了80.63%的正确率和75.68%的召回率。
-
关键词
最长名词短语
“的”字结构
识别
浅层句法分析
-
Keywords
Maximal noun phrase(MNP)
De-phrase
identification
shallow parsing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名韩国语名词短语结构特征分析及自动提取
被引量:6
- 6
-
-
作者
安帅飞
毕玉德
-
机构
解放军外国语学院语言工程系
-
出处
《中文信息学报》
CSCD
北大核心
2013年第5期205-210,共6页
-
文摘
名词短语作为语言中一种普遍的语法现象,在自然语言处理领域日益受到了研究人员的关注。目前,对其研究范围主要集中在边界识别、语法分析、语义分析及其分类等方面。该文通过研究分析韩国语书面语名词短语的左右边界规则,从大规模标注语料库中自动提取出名词短语。实验结果表明:语料中的高频名词短语相对集中于8个类型之中。根据提取结果分别建立不同类型的名词短语库,为进一步建立双语平行短语语料库打下基础,以便于以后的机器翻译、信息检索等自然语言信息处理工作。
-
关键词
韩国语
名词短语
标注语料库
边界界定
自动提取
-
Keywords
Korean
noun phrase
tagged corpus
boundary identification
automatic extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合短语结构的多通道老挝语名词短语识别方法
- 7
-
-
作者
汤礼欣
周兰江
张力
张建安
-
机构
昆明理工大学信息工程与自动化学院
-
出处
《中文信息学报》
CSCD
北大核心
2022年第6期61-68,89,共9页
-
文摘
名词短语的识别对句法分析等自然语言处理任务有着基础性的意义。目前,老挝语名词短语识别研究仍处于起步阶段,相较于其他语言,老挝语名词短语识别存在边界模糊、界定描述模糊、语料有限、句式过长等问题。针对以上问题,该文研究了老挝语名词短语的结构,并构建了融合其短语结构的多通道老挝语名词短语模型。模型通过将字符、词和词性特征组合形成不同的输入通道,使用多个BiLSTM网络从不同的方面提取更多隐藏信息,同时改善低资源语料存在大量未登录名词短语的问题。此外,由于老挝语句式过长,模型引入Attention机制,增加重要特征的权重,有效减少了无用信息的干扰。实验结果表明,该模型在有限标注语料下F_(1)值达到85.25%,优于其他模型方法。
-
关键词
名词短语识别
BiLSTM
多通道
Attention机制
-
Keywords
identification of noun phrases
BiLSTM
multi-channel
Attention mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-