Head-driven statistical models for natural language parsing are the most representative lexicalized syntactic parsing models, but they only utilize semantic dependency between words, and do not incorporate other seman...Head-driven statistical models for natural language parsing are the most representative lexicalized syntactic parsing models, but they only utilize semantic dependency between words, and do not incorporate other semantic information such as semantic collocation and semantic category. Some improvements on this distinctive parser are presented. Firstly, "valency" is an essential semantic feature of words. Once the valency of word is determined, the collocation of the word is clear, and the sentence structure can be directly derived. Thus, a syntactic parsing model combining valence structure with semantic dependency is purposed on the base of head-driven statistical syntactic parsing models. Secondly, semantic role labeling(SRL) is very necessary for deep natural language processing. An integrated parsing approach is proposed to integrate semantic parsing into the syntactic parsing process. Experiments are conducted for the refined statistical parser. The results show that 87.12% precision and 85.04% recall are obtained, and F measure is improved by 5.68% compared with the head-driven parsing model introduced by Collins.展开更多
随着自然语言处理、人工智能和多域数据库应用的发展,对智能数据库查询系统的需求迅速增长,尤其是在中文语境中,实现准确的查询生成已成为金融、医疗保健和客户服务等行业的必需要素。现有的SQL生成方法难以解决中文语义解析、多域适应...随着自然语言处理、人工智能和多域数据库应用的发展,对智能数据库查询系统的需求迅速增长,尤其是在中文语境中,实现准确的查询生成已成为金融、医疗保健和客户服务等行业的必需要素。现有的SQL生成方法难以解决中文语义解析、多域适应性及人机交互中语义一致性的问题,限制复杂查询的跨域处理。针对上述挑战,提出一种面向中文的多域人机交互式SQL生成算法MH-CSQL(multi-domain human-computer interaction for Chinese SQL generation algorithm),结合历史信息和课程学习技术以增强自然语言理解,支持多域数据库处理各种查询任务。实验结果表明,MH-CSQL在准确性和适应性方面均优于传统方法。此外,将人机交互模型的结果可视图进行展示,验证了MH-CSQL在智能问答等领域的应用前景。展开更多
自然语言到结构化查询语言(natural language to structured query language,NL2SQL)任务旨在将自然语言询问转化为数据库可执行的结构化查询语言(structured query language,SQL)语句。本文提出了一种辅助任务增强的中文跨域NL2SQL算法...自然语言到结构化查询语言(natural language to structured query language,NL2SQL)任务旨在将自然语言询问转化为数据库可执行的结构化查询语言(structured query language,SQL)语句。本文提出了一种辅助任务增强的中文跨域NL2SQL算法,其核心思想是通过在解码阶段添加辅助任务以结合原始模型来进行多任务训练,提升模型的准确率。辅助任务的设计是通过将数据库模式建模成图,预测自然语言询问与数据库模式图中的节点的依赖关系,显式地建模自然语言询问和数据库模式之间的依赖关系。针对特定的自然语言询问,通过辅助任务的提升,模型能够更好地识别数据库模式中哪些表/列对预测目标SQL更有效。在中文NL2SQL数据集DuSQL上的实验结果表明,添加辅助任务后的算法相对于原始模型取得了更好的效果,能够更好地处理跨域NL2SQL任务。展开更多
抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的...抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的深层次语义信息捕捉能力,被广泛运用在例如信息抽取、智能问答、对话系统等多种下游任务中。AMR解析过程将自然语言转换成AMR图。虽然AMR图中的大部分概念结点和关系与句子中的词语具有较为明显的对齐关系,但原始的英文AMR语料中并没有给出具体的对齐信息。为了克服对齐信息不足给AMR解析以及AMR在下游任务上的应用造成的阻碍,Li等人[14]提出并标注了具有概念和关系对齐的中文AMR语料库。然而,现有的AMR解析方法并不能很好地在AMR解析的过程中利用和生成对齐信息。因此,该文首次提出了一种可以利用并且生成对齐信息的AMR解析方法,包括了概念预测和关系预测两个阶段。该文提出的方法具有高度的灵活性和可扩展性,实验结果表明,该方法在公开数据集CAMR 2.0和CAMRP 2022盲测集分别取得了77.6(+10.6)和70.7(+8.5)的Align Smatch分数,超过了过去基于序列到序列(Sequence-to-Sequence)模型的方法。该文同时对AMR解析的性能和细粒度指标进行详细的分析,并对存在的改进方向进行了展望。该文的代码和模型参数已经开源到https://github.com/pkunlp-icler/Two-Stage-CAMRP,供复现与参考。展开更多
人体图像精细化解析旨在为输入的人体图像进行像素级分类,属于细粒度的图像语义分割任务,由于具有广阔的应用场景,在近10年受到了研究者的关注,相关技术得以迅速发展.本文重点研究现有人体图像解析精细化模型对人体图像语义边缘的预测性...人体图像精细化解析旨在为输入的人体图像进行像素级分类,属于细粒度的图像语义分割任务,由于具有广阔的应用场景,在近10年受到了研究者的关注,相关技术得以迅速发展.本文重点研究现有人体图像解析精细化模型对人体图像语义边缘的预测性能.首先,总结现有人体图像数据集,对比数据集在规模和标注类别方面的差异;其次,根据模型原理性差异,从通用图像语义分割、辅助信息引导、高分辨率特征增益和标签降噪4个方面对现有人体解析方法进行梳理和分类;再次,针对现有评估指标对于语义边缘区域预测能力敏感度不足的问题,构建新的评估指标,即平均边缘交并比(mean Boundary Intersection over Union,mBIoU),并用于对现有模型的评估,从数值上对比各方法的性能差异;最后,展望了人体解析未来的发展方向.研究结果表明:平均边缘交并比相较于现有指标能够更好地区分模型在语义边缘区域预测性能的差异,对人体图像精细化解析模型解决人体解析任务特有挑战的能力具有良好的评估作用,有利于未来算法的开发与性能评估.展开更多
基金Project(61262035) supported by the National Natural Science Foundation of ChinaProjects(GJJ12271,GJJ12742) supported by the Science and Technology Foundation of Education Department of Jiangxi Province,ChinaProject(20122BAB201033) supported by the Natural Science Foundation of Jiangxi Province,China
文摘Head-driven statistical models for natural language parsing are the most representative lexicalized syntactic parsing models, but they only utilize semantic dependency between words, and do not incorporate other semantic information such as semantic collocation and semantic category. Some improvements on this distinctive parser are presented. Firstly, "valency" is an essential semantic feature of words. Once the valency of word is determined, the collocation of the word is clear, and the sentence structure can be directly derived. Thus, a syntactic parsing model combining valence structure with semantic dependency is purposed on the base of head-driven statistical syntactic parsing models. Secondly, semantic role labeling(SRL) is very necessary for deep natural language processing. An integrated parsing approach is proposed to integrate semantic parsing into the syntactic parsing process. Experiments are conducted for the refined statistical parser. The results show that 87.12% precision and 85.04% recall are obtained, and F measure is improved by 5.68% compared with the head-driven parsing model introduced by Collins.
文摘随着自然语言处理、人工智能和多域数据库应用的发展,对智能数据库查询系统的需求迅速增长,尤其是在中文语境中,实现准确的查询生成已成为金融、医疗保健和客户服务等行业的必需要素。现有的SQL生成方法难以解决中文语义解析、多域适应性及人机交互中语义一致性的问题,限制复杂查询的跨域处理。针对上述挑战,提出一种面向中文的多域人机交互式SQL生成算法MH-CSQL(multi-domain human-computer interaction for Chinese SQL generation algorithm),结合历史信息和课程学习技术以增强自然语言理解,支持多域数据库处理各种查询任务。实验结果表明,MH-CSQL在准确性和适应性方面均优于传统方法。此外,将人机交互模型的结果可视图进行展示,验证了MH-CSQL在智能问答等领域的应用前景。
文摘自然语言到结构化查询语言(natural language to structured query language,NL2SQL)任务旨在将自然语言询问转化为数据库可执行的结构化查询语言(structured query language,SQL)语句。本文提出了一种辅助任务增强的中文跨域NL2SQL算法,其核心思想是通过在解码阶段添加辅助任务以结合原始模型来进行多任务训练,提升模型的准确率。辅助任务的设计是通过将数据库模式建模成图,预测自然语言询问与数据库模式图中的节点的依赖关系,显式地建模自然语言询问和数据库模式之间的依赖关系。针对特定的自然语言询问,通过辅助任务的提升,模型能够更好地识别数据库模式中哪些表/列对预测目标SQL更有效。在中文NL2SQL数据集DuSQL上的实验结果表明,添加辅助任务后的算法相对于原始模型取得了更好的效果,能够更好地处理跨域NL2SQL任务。
文摘人体图像精细化解析旨在为输入的人体图像进行像素级分类,属于细粒度的图像语义分割任务,由于具有广阔的应用场景,在近10年受到了研究者的关注,相关技术得以迅速发展.本文重点研究现有人体图像解析精细化模型对人体图像语义边缘的预测性能.首先,总结现有人体图像数据集,对比数据集在规模和标注类别方面的差异;其次,根据模型原理性差异,从通用图像语义分割、辅助信息引导、高分辨率特征增益和标签降噪4个方面对现有人体解析方法进行梳理和分类;再次,针对现有评估指标对于语义边缘区域预测能力敏感度不足的问题,构建新的评估指标,即平均边缘交并比(mean Boundary Intersection over Union,mBIoU),并用于对现有模型的评估,从数值上对比各方法的性能差异;最后,展望了人体解析未来的发展方向.研究结果表明:平均边缘交并比相较于现有指标能够更好地区分模型在语义边缘区域预测性能的差异,对人体图像精细化解析模型解决人体解析任务特有挑战的能力具有良好的评估作用,有利于未来算法的开发与性能评估.