期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
抽象语义表示解析方法研究综述
1
作者 尹华 卢懿亮 +2 位作者 季跃蕾 吴梓浩 彭亚男 《中文信息学报》 CSCD 北大核心 2024年第3期1-23,共23页
句子级语义分析是自然语言处理(NLP)的核心任务,面临复杂语义的表示问题。抽象语义表示(AMR)突破浅层局限,实现了领域无关的整句通用语义表示,具备准确表征句子完整语义的能力。因为AMR解析效果会影响下游NLP任务的表现,所以解析方法成... 句子级语义分析是自然语言处理(NLP)的核心任务,面临复杂语义的表示问题。抽象语义表示(AMR)突破浅层局限,实现了领域无关的整句通用语义表示,具备准确表征句子完整语义的能力。因为AMR解析效果会影响下游NLP任务的表现,所以解析方法成为近年的国内外研究热点。由于时效性因素,既有AMR综述未涉及新涌现的解析方法,亟需深度聚焦其前沿文献。该文首先采用CiteSpace工具分析了AMR的总体研究情况。相比英文AMR解析研究,中文AMR解析研究成果数量相对较少,尚有较大的发展空间。进而分析了AMR语料库发展和AMR解析面临的概念和概念关系识别、对齐以及融入结构信息等问题。根据不同的解析策略将解析方法分为4类,以问题为驱动,剖析了各类AMR解析方法的演进。最后,选择21个英文AMR解析器、7个中文AMR解析器,比较分析Smatch等各项实验指标。归纳实验结果发现,现有模型在学习复杂多语义关系方面亟待加强。该文通过理论和实证分析为研究者提供AMR解析方法的发展脉络和研究思路。 展开更多
关键词 抽象语义表示 解析方法 语料库 自然语言处理
在线阅读 下载PDF
自然语言句子抽象语义表示AMR研究综述 被引量:19
2
作者 曲维光 周俊生 +3 位作者 吴晓东 戴茹冰 顾敏 顾彦慧 《数据采集与处理》 CSCD 北大核心 2017年第1期26-36,共11页
句子的语义处理是自然语言处理的重要难题与挑战。抽象语义表示(Abstract meaning representation,AMR)是近几年国际上新兴的句子级语义表示方法,突破了传统的句法树结构的限制,将一个句子语义抽象为一个单根有向无环图,很好地解决了论... 句子的语义处理是自然语言处理的重要难题与挑战。抽象语义表示(Abstract meaning representation,AMR)是近几年国际上新兴的句子级语义表示方法,突破了传统的句法树结构的限制,将一个句子语义抽象为一个单根有向无环图,很好地解决了论元共享问题,成为语言资源建设和句子语义解析的研究热点。本文从AMR概念与规范、解析算法和应用等方面对AMR相关研究进行系统的梳理,特别对AMR的各种解析算法进行了比较深入的分析和比较,指出了现有算法存在的问题和不足,同时介绍了中文AMR的开发进展,最后展望了AMR未来的研究方向。 展开更多
关键词 抽象语义表示 句法语义 语义解析 自然语言处理
在线阅读 下载PDF
面向中文抽象语义表示的复句研究综述 被引量:2
3
作者 魏庭新 曲维光 +1 位作者 宋丽 戴茹冰 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第6期849-858,共10页
抽象语义表示(AMR)是一种新型的句子语义表示方式.中文AMR在英文AMR的基础上,针对汉语特点,增加了复句逻辑语义关系的表示.中文AMR以句子为基本标注单位,以层次结构树形式表示各分句间的逻辑关系.由于允许论元共享,因此在树结构基础上... 抽象语义表示(AMR)是一种新型的句子语义表示方式.中文AMR在英文AMR的基础上,针对汉语特点,增加了复句逻辑语义关系的表示.中文AMR以句子为基本标注单位,以层次结构树形式表示各分句间的逻辑关系.由于允许论元共享,因此在树结构基础上形成图结构,从而对复句的语义表示更加完整全面.为了进一步研究中文AMR,对目前复句关系研究现状、复句及篇章关系资源的建设进行了综述,指出目前研究存在的问题,并提出将来工作研究的方向. 展开更多
关键词 中文抽象语义表示 复句 篇章关系
在线阅读 下载PDF
第二届中文抽象语义表示解析评测 被引量:1
4
作者 李斌 许智星 +3 位作者 肖力铭 周俊生 曲维光 薛念文 《中文信息学报》 CSCD 北大核心 2023年第6期33-43,共11页
抽象语义表示是近年来国内外句子语义解析领域的研究热点,国际上已举办了CoNLL2019和CoNLL2020两届跨语言的评测。中文抽象语义表示评测是CoNLL2020的五大任务之一,取得了接近英语的解析效果,但是评测数据和评测指标仍有较大改进空间。... 抽象语义表示是近年来国内外句子语义解析领域的研究热点,国际上已举办了CoNLL2019和CoNLL2020两届跨语言的评测。中文抽象语义表示评测是CoNLL2020的五大任务之一,取得了接近英语的解析效果,但是评测数据和评测指标仍有较大改进空间。为了推动中文抽象语义解析研究,该文在第二十一届中国计算语言学大会技术评测任务研讨会上组织了第二届评测,以新设计的Align-smatch指标为排名标准,采用改进的语义标注方案和标注语料库来进行评测。在基础测试集上,封闭模式的最高F1值为80.00%;盲测集上的表现则相比基础测试集下降了7个百分点左右。本次评测的最佳结果在MRP指标下比上届提高了2.66个百分点。统计发现,整体性能提升主要来源于概念之间的语义关系预测准确率的提高,而语义关系的对齐还有待提升。 展开更多
关键词 抽象语义表示 语义解析 评测指标 中文信息处理
在线阅读 下载PDF
基于抽象语义表示的短文本质量评估方法
5
作者 高永兵 张颖 +1 位作者 黎预璇 马占飞 《计算机应用与软件》 北大核心 2022年第5期213-219,240,共8页
针对短文本中大量文法混乱语义不清的句子,提出一种将句法结构和修饰语义相结合的短文本质量评估算法。该方法将短文本分为单句和多句两种模式。对于单句模式,将句子解析为抽象语义表示,接着分析谓词的句法结构的完整程度;根据不同的修... 针对短文本中大量文法混乱语义不清的句子,提出一种将句法结构和修饰语义相结合的短文本质量评估算法。该方法将短文本分为单句和多句两种模式。对于单句模式,将句子解析为抽象语义表示,接着分析谓词的句法结构的完整程度;根据不同的修饰关系计算句子序列的紧密程度,结合句子的结构完整性与紧密性得出单句短文本质量评估值。对于多句模式,选取每句中的关键词;循环计算与其他句子中关键词的相似性,总相似度最高的单句作为核心句,用核心句的质量评估值作为多句短文本的质量评估值。实验结果表明,该方法在中文AMR数据集上的准确率为80%,在自建的多句微博数据集中准确率为74.73%。 展开更多
关键词 短文本 质量评估 句法结构 修饰语义 抽象语义表示
在线阅读 下载PDF
基于概念关系对齐的中文抽象语义表示解析评测方法 被引量:3
6
作者 肖力铭 李斌 +4 位作者 许智星 霍凯蕊 冯敏萱 周俊生 曲维光 《中文信息学报》 CSCD 北大核心 2022年第1期21-30,38,共11页
抽象语义表示(Abstract Meaning Representation,AMR)是一种句子语义表示方法,能够将句子的语义表示为一个单根有向无环图。随着中文AMR语料库规模的扩大,解析系统的研究也相继展开,将句子自动解析为中文AMR。然而,现有的AMR解析评测方... 抽象语义表示(Abstract Meaning Representation,AMR)是一种句子语义表示方法,能够将句子的语义表示为一个单根有向无环图。随着中文AMR语料库规模的扩大,解析系统的研究也相继展开,将句子自动解析为中文AMR。然而,现有的AMR解析评测方法并不能处理中文AMR的重要组成部分——概念对齐和关系对齐信息,尤其是关系对齐中对应到有向弧上的虚词信息。因此,为了弥补中文AMR解析评测在这两个方面上的空缺,该文在Smatch指标的基础上加入了描写概念对齐和关系对齐的三元组,得到用以评测中文AMR的整体性指标Align-Smatch。选取100句人工标注语料与标准语料进行评测对照实验,结果显示,Align-Smatch有效兼容了对齐信息,对有向弧的评测比Smatch更合理。该文还提出了概念对齐指标、关系对齐指标、隐含概念指标共三个分项指标,以进一步评测中文AMR解析器在对齐子任务中的分项性能。 展开更多
关键词 抽象语义表示 评测方法 概念对齐 关系对齐 语义分析
在线阅读 下载PDF
基于关系对齐的汉语虚词抽象语义表示与分析 被引量:3
7
作者 戴玉玲 戴茹冰 +2 位作者 冯敏萱 李斌 曲维光 《中文信息学报》 CSCD 北大核心 2020年第4期21-29,共9页
虚词具有丰富的语法意义,对句子理解起着不可或缺的作用。虚词的语言学研究成果丰富,但缺乏形式化表示,无法直接被计算机利用。为了表示虚词的句法语义信息,该文首先在抽象语义表示(abstract meaning representation,AMR)这种基于概念... 虚词具有丰富的语法意义,对句子理解起着不可或缺的作用。虚词的语言学研究成果丰富,但缺乏形式化表示,无法直接被计算机利用。为了表示虚词的句法语义信息,该文首先在抽象语义表示(abstract meaning representation,AMR)这种基于概念图的语义表示方法的基础上,增加了词语和概念关系的对齐信息,使得虚词对应于概念节点或节点之间的关系弧。其次,选取了语言规范的人教版小学语文课本8 587句作为语料,进行AMR的标注。然后,针对语料中24 801个虚词实例进行统计,发现介词、连词、结构助词对应概念间的关系,占虚词总数的58.80%;而语气词和体助词表示概念,占41.20%。这表明AMR可以动态地描写出虚词功能,为整句句法语义分析提供更好的理论与资源。 展开更多
关键词 虚词 抽象语义表示 关系对齐 语言知识库
在线阅读 下载PDF
基于抽象语义表示的汉语构式标注与分析 被引量:3
8
作者 黄彤 李斌 +2 位作者 闫培艺 戴玉玲 曲维光 《中文信息学报》 CSCD 北大核心 2020年第10期1-9,18,共10页
构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用... 构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用中文抽象语义表示(CAMR)来直接标注构式的语义结构。目前收录最全的构式库是北京大学现代汉语构式知识库,通过对该构式库1057条构式进行人工标注并统计后,发现CAMR可以表示出61.2%的基本符合组合原则的构式;而38.8%不符合组合原则的构式需要修改或添加概念,存在缺少概念、组成成分难以拆分、修辞意义难以表示等情况。该文给出的策略是将其整体作为一个谓词标注或只标注其表层义。汉语构式库的标注可以为构式语义的自动分析提供理论与数据基础。 展开更多
关键词 抽象语义表示 构式 形式化表示 构式语料库 中文信息处理
在线阅读 下载PDF
基于抽象语义表示的汉语疑问句的标注与分析 被引量:1
9
作者 闫培艺 李斌 +3 位作者 黄彤 霍凯蕊 陈瑾 曲维光 《中文信息学报》 CSCD 北大核心 2022年第7期33-41,共9页
计算语言学领域多采取问句分类和句法分析相结合的方式处理疑问句,但精度和效率还不理想。疑问句的语言学研究成果丰富,比如疑问句的结构类型、疑问焦点等,但缺乏系统的形式化表示。该文采用基于图结构的句子语义整体表示方法--中文抽... 计算语言学领域多采取问句分类和句法分析相结合的方式处理疑问句,但精度和效率还不理想。疑问句的语言学研究成果丰富,比如疑问句的结构类型、疑问焦点等,但缺乏系统的形式化表示。该文采用基于图结构的句子语义整体表示方法--中文抽象语义表示来标注疑问句的语义结构,将疑问焦点和整句语义一体化表示出来,选取了宾州中文树库、小学语文教材等2万句语料中共计2071个疑问句进行标注。统计结果表明,疑问焦点可通过疑问概念amr-unknown和语义关系的组合来表示。其次,根据疑问代词所关联的语义关系,统计了疑问焦点的概率分布,发现原因、修饰语和受事的占比最高,分别占26.45%、16.74%以及16.45%。基于抽象语义表示的疑问句标注与分析可以为汉语疑问句研究提供基础理论与资源。 展开更多
关键词 疑问句 抽象语义表示 语义关系 语义计算
在线阅读 下载PDF
英汉《小王子》抽象语义图结构的对比分析 被引量:9
10
作者 李斌 闻媛 +2 位作者 卜丽君 曲维光 薛念文 《中文信息学报》 CSCD 北大核心 2017年第1期50-57,74,共9页
AMR(抽象语义表示)是国际上一种新的句子语义表示方法,有着接近于中间语言的表示能力,其研发者已经建立了英文《小王子》等AMR语料库。AMR与以往的句法语义表示方法的最大不同在于两个方面,首先采用图结构来表示句子的语义;其次允许添... AMR(抽象语义表示)是国际上一种新的句子语义表示方法,有着接近于中间语言的表示能力,其研发者已经建立了英文《小王子》等AMR语料库。AMR与以往的句法语义表示方法的最大不同在于两个方面,首先采用图结构来表示句子的语义;其次允许添加原句之外的概念节点来表示隐含的语义。该文针对汉语特点,在制定中文AMR标注规范的基础上,标注完成了中文版《小王子》的AMR语料库,标注一致性的Smatch值为0.83。统计结果显示,英汉双语含图结构句子具有很高的相关性,且含有图的句子比例高达40%左右,额外添加的概念节点则存在较大差异。最后讨论了AMR在汉语句子语义表示以及跨语言对比方面的优势。 展开更多
关键词 抽象语义表示 语义 英汉对比 自然语言处理
在线阅读 下载PDF
基于加权AMR图的语义子图预测摘要算法 被引量:4
11
作者 明拓思宇 陈鸿昶 +1 位作者 黄瑞阳 柳杨 《计算机工程》 CAS CSCD 北大核心 2018年第10期292-297,302,共7页
方法多数停留在挖掘词与词之间的浅层语义关系,没有很好地利用词句之间的完整语义信息,为此,提出一种改进的语义子图预测摘要的算法。将原始文本转化为相应的抽象语义表示(AMR)图,融合成一个AMR总图,基于WordNet语义词典对其进行冗余信... 方法多数停留在挖掘词与词之间的浅层语义关系,没有很好地利用词句之间的完整语义信息,为此,提出一种改进的语义子图预测摘要的算法。将原始文本转化为相应的抽象语义表示(AMR)图,融合成一个AMR总图,基于WordNet语义词典对其进行冗余信息的过滤。在此基础上利用综合统计特征对不具有权值的AMR图节点赋予权值,通过筛选重要性程度高的部分构成语义摘要子图,并基于ROUGE指标和Smatch指标综合衡量生成摘要的质量。实验结果表明,与仅挖掘浅层语义关系的文本摘要基准算法相比,该算法ROUGE值和Smatch值明显提高。 展开更多
关键词 抽象语义表示 语义摘要子图 语义信息 冗余信息 摘要评价指标
在线阅读 下载PDF
基于概念预测和关系预测的AMR解析与对齐方法
12
作者 陈亮 高博飞 +1 位作者 常宝宝 张亦驰 《中文信息学报》 CSCD 北大核心 2024年第7期18-30,共13页
抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的... 抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的深层次语义信息捕捉能力,被广泛运用在例如信息抽取、智能问答、对话系统等多种下游任务中。AMR解析过程将自然语言转换成AMR图。虽然AMR图中的大部分概念结点和关系与句子中的词语具有较为明显的对齐关系,但原始的英文AMR语料中并没有给出具体的对齐信息。为了克服对齐信息不足给AMR解析以及AMR在下游任务上的应用造成的阻碍,Li等人[14]提出并标注了具有概念和关系对齐的中文AMR语料库。然而,现有的AMR解析方法并不能很好地在AMR解析的过程中利用和生成对齐信息。因此,该文首次提出了一种可以利用并且生成对齐信息的AMR解析方法,包括了概念预测和关系预测两个阶段。该文提出的方法具有高度的灵活性和可扩展性,实验结果表明,该方法在公开数据集CAMR 2.0和CAMRP 2022盲测集分别取得了77.6(+10.6)和70.7(+8.5)的Align Smatch分数,超过了过去基于序列到序列(Sequence-to-Sequence)模型的方法。该文同时对AMR解析的性能和细粒度指标进行详细的分析,并对存在的改进方向进行了展望。该文的代码和模型参数已经开源到https://github.com/pkunlp-icler/Two-Stage-CAMRP,供复现与参考。 展开更多
关键词 语义解析 抽象语义表示 中文自然语言处理
在线阅读 下载PDF
融合概念对齐信息的中文AMR语料库的构建 被引量:22
13
作者 李斌 闻媛 +3 位作者 宋丽 卜丽君 曲维光 薛念文 《中文信息学报》 CSCD 北大核心 2017年第6期93-102,共10页
作为一种新的句子语义表示方法,抽象语义表示(AMR)将一个句子抽象为单根有向无环图,目前已经建立了较大规模的英文语料库。然而,句子中的词语和AMR图的概念对齐信息缺失,使得自动分析效果和语料标注质量受到影响,同时中文尚无较大规模的... 作为一种新的句子语义表示方法,抽象语义表示(AMR)将一个句子抽象为单根有向无环图,目前已经建立了较大规模的英文语料库。然而,句子中的词语和AMR图的概念对齐信息缺失,使得自动分析效果和语料标注质量受到影响,同时中文尚无较大规模的AMR语料库。该文介绍了中文AMR语料库的构建工作,针对汉语特点调整了AMR的标注体系,增加对复句关系的标注,提出了融合概念对齐的一体化标注方案,解决了中英文输入法频繁切换的问题,增加了错别字纠正和未标注词高亮功能,提高了标注效率。然后,从CTB中选取了6 923句进行人工标注,形成中文AMR语料库,统计得到图和环的比例分别为48%和1%,以及利用对齐信息才能获取的非投影句的比例32%,为中文AMR的理论和自动分析研究奠定基础。 展开更多
关键词 抽象语义表示 语义 句子语义 语言知识库
在线阅读 下载PDF
基于中文AMR语料库的非投影结构研究 被引量:2
14
作者 闻媛 宋丽 +3 位作者 吴泰中 李斌 周俊生 曲维光 《中文信息学报》 CSCD 北大核心 2018年第12期31-40,共10页
非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影... 非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影结构尚未得到重视,语料库构建过程中也因遵循了投影性原则而缺乏对非投影结构的标注。该文基于概念对齐版的中文AMR语料库,在10 149句语料上统计出带有非投影结构的句子比例为31.62%,其三种主要类型为模态词提升、话题化和成分分离,并提出了相应的自动分析方案,以提高中文AMR自动分析效果。 展开更多
关键词 抽象语义表示 概念对齐 非投影 语义分析 中文信息处理
在线阅读 下载PDF
基于神经网络的连动句识别 被引量:1
15
作者 孙超 曲维光 +3 位作者 魏庭新 顾彦慧 李斌 周俊生 《中文信息学报》 CSCD 北大核心 2022年第2期12-21,共10页
连动句是具备连动结构的句子,是汉语中一种特殊的句法结构,在现代汉语中十分常见且使用频繁。连动句语法结构和语义关系都很复杂,在识别中存在许多问题,对此该文针对连动句的识别问题进行了研究,提出了一种基于神经网络的连动句识别方... 连动句是具备连动结构的句子,是汉语中一种特殊的句法结构,在现代汉语中十分常见且使用频繁。连动句语法结构和语义关系都很复杂,在识别中存在许多问题,对此该文针对连动句的识别问题进行了研究,提出了一种基于神经网络的连动句识别方法。该方法分两步:第一步,运用简单的规则对语料进行预处理;第二步,利用文本分类的思想,使用BERT编码,利用多层CNN与BiLSTM模型联合提取特征进行分类,进而完成连动句识别任务。在人工标注的语料上进行实验,实验结果达到92.71%的准确率,F_(1)值为87.41%。 展开更多
关键词 连动句 文本分类 神经网络 抽象语义表示
在线阅读 下载PDF
基于转移神经网络的中文AMR解析 被引量:4
16
作者 吴泰中 顾敏 +3 位作者 周俊生 曲维光 李斌 顾彦慧 《中文信息学报》 CSCD 北大核心 2019年第4期1-11,共11页
抽象语义表示(abstract meaning representation,AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图。目前,中文AMR研究仍然处于起步阶段。该文结合中文AMR特性,... 抽象语义表示(abstract meaning representation,AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图。目前,中文AMR研究仍然处于起步阶段。该文结合中文AMR特性,采用基于转移神经网络的方法对中文AMR解析问题展开了试验性研究。首先,实现了一个基于转移解码方法的增量式中文AMR解析神经网络基线系统;然后,通过引入依存路径语义关系表示学习和上下文相关词语语义表示学习,丰富了特征的表示;最后,模型中应用序列化标注的模型实现AMR概念识别,优化了AMR概念识别效果。实验结果表明,该模型在中文AMR解析任务中达到了0.61的Smatch F1值,明显优于基线系统。 展开更多
关键词 抽象语义表示 转移神经网络 概念识别
在线阅读 下载PDF
基于AMR语料库的汉语省略与论元共享现象考察 被引量:4
17
作者 戴茹冰 侍冰清 +1 位作者 李斌 曲维光 《外语研究》 CSSCI 北大核心 2020年第2期16-23,共8页
省略是汉语中常见的语言现象,在传统的句法语义表示方式中,含有省略信息的语言结构经常被忽视,而且由于其树结构的限制,语言中论元共享的现象也很少能够清晰地表示出来。本研究基于人工标注的抽象语义表示(Abstract Meaning Representat... 省略是汉语中常见的语言现象,在传统的句法语义表示方式中,含有省略信息的语言结构经常被忽视,而且由于其树结构的限制,语言中论元共享的现象也很少能够清晰地表示出来。本研究基于人工标注的抽象语义表示(Abstract Meaning Representation,AMR)汉语语料库,通过分析AMR标注中增补的概念节点及其涉及的语言结构,统计省略和论元共享现象在汉语真实语料中对应的基本结构类型及其分布,从省略信息的指称类型、句法位置以及句法成分等角度归纳出各类省略模式,为汉语语义完整表示奠定基础。 展开更多
关键词 省略 论元共享 概念节点增补 抽象语义表示 自然语言处理 语义表示
在线阅读 下载PDF
汉语V+V序列关系识别研究
18
作者 李胜男 曲维光 +3 位作者 魏庭新 周俊生 顾彦慧 李斌 《计算机工程与应用》 CSCD 北大核心 2023年第5期289-296,共8页
“V+V”是现代汉语中的常见结构,能够形成兼语、连动等多种完全不同的句法结构,给句法和语义解析造成困难。针对“V+V”形成的句法结构类型和序列关系识别问题,设计并制定了一套语料库标注规范,以解决语料库中存在的“V+V”结构的嵌套... “V+V”是现代汉语中的常见结构,能够形成兼语、连动等多种完全不同的句法结构,给句法和语义解析造成困难。针对“V+V”形成的句法结构类型和序列关系识别问题,设计并制定了一套语料库标注规范,以解决语料库中存在的“V+V”结构的嵌套标注问题,并据此构建起一个包含5 381个兼语句子、7 987个连动句子,以及1 212个兼语连动嵌套句子的“V+V”语料库。提出一个基于BiLSTM-CRF和多头注意力机制的模型,能够同时识别结构中的多个动词和名词的句法、语义角色。相比于以往只研究单项识别兼语或者连动结构,该模型不仅可以同时识别兼语结构、连动结构,还可以解决兼语连动嵌套结构的识别问题。实验结果表明:该方法能够很好地解决“V+V”序列关系的识别问题,在测试集语料上达到92.12%的F1值。 展开更多
关键词 V+V序列关系 连动结构 兼语结构 中文抽象语义表示
在线阅读 下载PDF
AMR文本生成的数据扩充方法
19
作者 付叶蔷 李军辉 《计算机工程》 CAS CSCD 北大核心 2022年第5期91-97,共7页
在抽象语义表示(AMR)文本生成过程中,AMR图到文本形式的转换在很大程度上受语料规模的影响。提出一种简单有效的动态数据扩充方法,在已标注数据集规模有限的情况下提高AMR文本生成性能。将AMR文本生成模型解码端视作一个语言模型,使用... 在抽象语义表示(AMR)文本生成过程中,AMR图到文本形式的转换在很大程度上受语料规模的影响。提出一种简单有效的动态数据扩充方法,在已标注数据集规模有限的情况下提高AMR文本生成性能。将AMR文本生成模型解码端视作一个语言模型,使用单词级别的扩充方法,通过动态地对目标端单词进行随机替换,得到带噪声的数据,从而增强模型的泛化能力。在加载数据时,随机选择目标句子中的部分单词做噪声化处理,利用约束编码器预测被覆盖的单词并还原出原始语句,使模型具有更深层的语言表征能力。基于AMR2.0和AMR3.0英文标准数据集进行实验,结果表明,该方法可有效提升AMR文本生成系统性能,与未引入噪声的基准Transformer模型相比,能够获得更优的BLEU、Meteor和chrF++指标,其中BLEU值在人工标注语料场景下分别提升0.68和0.64,且在大规模自动标注语料场景下也能提升0.60和0.68。 展开更多
关键词 抽象语义表示 语料规模 AMR文本生成 动态数据扩充 噪声
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部