-
题名文本蕴涵的推理模型与识别模型
被引量:17
- 1
-
-
作者
袁毓林
王明华
-
机构
北京大学中文系汉语语言学研究中心
浙江大学国际教育学院
-
出处
《中文信息学报》
CSCD
北大核心
2010年第2期3-13,共11页
-
基金
国家社会科学基金资助项目(07AYY00A)
国家863高技术发展计划资助项目(2007AA01Z173)
-
文摘
该文首先介绍一个逼近文本蕴涵关系的推理模型,它由带有推理规则集的蕴涵型式知识库和相关的概率评价构成。接着介绍习得推理规则和蕴涵型式及其概率的几种方法,包括从平行或单一语料库中学习和从网络文件中学习。然后介绍基于词汇概率的蕴涵识别模型,包括通过构建词汇蕴涵的概率模型和基于词汇所指的语义匹配模型来逼近文本蕴涵的几种方法。最后介绍基于句法的语义分析模型,包括基于依存树节点匹配、论元结构或原子命题匹配等处理模型。
-
关键词
计算机应用
中文信息处理
文本蕴涵
推理模型
蕴涵型式
识别模型
词汇概率
句法语义
-
Keywords
computer application
Chinese information processing
textual entailment : inference model
entailment pattern
recognizing models
lexical probability
syntax and semantics
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于知识话题模型的文本蕴涵识别
被引量:4
- 2
-
-
作者
任函
盛雅琦
冯文贺
刘茂福
-
机构
湖北工业大学计算机学院
武汉大学湖北省语言与智能信息处理研究基地
武汉大学计算机学院
武汉科技大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2015年第6期119-126,共8页
-
基金
国家自然科学基金(61402341
61173062
+2 种基金
61373108)
国家社会科学基金重大项目(11&ZD189)
中国博士后科学基金(2013M540594)
-
文摘
该文分析了现有基于分类策略的文本蕴涵识别方法的问题,并提出了一种基于知识话题模型的文本蕴涵分类识别方法。其假设是:文本可看作是语义关系的组合,这些语义关系构成若干话题;若即若文本T蕴涵假设H,说明T和H具有相似的话题分布,反之说明T和H不具有相似的话题分布。基于此,我们将T和H的蕴涵识别问题转化为相关话题的生成过程,同时将文本推理知识融入到抽样过程,由此建立一个面向文本蕴涵识别的话题模型。实验结果表明基于知识话题模型在一定程度上改进了文本蕴涵识别系统的性能。
-
关键词
文本蕴涵识别
话题模型
蕴涵分类
推理知识
-
Keywords
recognizing textual entailment
topic models entailment classification
inference knowledge
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合外部语义知识的中文文本蕴含识别
被引量:1
- 3
-
-
作者
李世宝
李贺
赵庆帅
殷乐乐
刘建航
黄庭培
-
机构
中国石油大学(华东)海洋与空间信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第1期44-49,共6页
-
基金
国家自然科学基金(61972417,61872385)
中央高校基本科研业务费专项资金(18CX02134A,19CX05003A-4,18CX02137A)。
-
文摘
基于神经网络的文本蕴含识别模型通常仅从训练数据中学习推理知识,导致模型泛化能力较弱。提出一种融合外部语义知识的中文知识增强推理模型(CKEIM)。根据知网知识库的特点提取词级语义知识特征以构建注意力权重矩阵,同时从同义词词林知识库中选取词语相似度特征和上下位特征组成特征向量,并将注意力权重矩阵、特征向量与编码后的文本向量相结合融入神经网络的模型训练过程,实现中文文本蕴含的增强识别。实验结果表明,与增强序列推理模型相比,CKEIM在15%、50%和100%数据规模的CNLI训练集下识别准确率分别提升了3.7%、1.5%和0.9%,具有更好的中文文本蕴含识别性能和泛化能力。
-
关键词
中文文本蕴含
自然语言推理
注意力机制
双向长短期记忆网络
知网
词林
-
Keywords
Chinese textual entailment
natural language inference
attention mechanism
Bi-directional Long Short-Term Memory(BiLSTM)network
HowNet
CiLin
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向文本推理的知识增强预训练语言模型
被引量:4
- 4
-
-
作者
熊凯
杜理
丁效
刘挺
秦兵
付博
-
机构
哈尔滨工业大学社会计算与信息检索研究中心
建信金融科技有限责任公司基础技术中心
-
出处
《中文信息学报》
CSCD
北大核心
2022年第12期27-35,共9页
-
基金
科技创新2030——“新一代人工智能”重大项目(2018AAA0101901)
国家自然科学基金(62176079,61976073)。
-
文摘
该文聚焦于利用丰富的知识对预训练语言模型进行增强以进行文本推理。预训练语言模型虽然在大量的自然语言处理任务上达到了很高的性能表现,具有很强的语义理解能力,但是大部分预训练语言模型自身包含的知识很难支撑其进行更高效的文本推理。为此,该文提出了一个知识增强的预训练语言模型进行文本推理的框架,使得图以及图结构的知识能够更深入地与预训练语言模型融合。在文本推理的两个子任务上,该文框架的性能超过了一系列的基线方法,实验结果和分析验证了模型的有效性。
-
关键词
文本推理
事理图谱
知识图谱
预训练语言模型
-
Keywords
textual inference
eventic graph
knowledge graph
pre-trained language model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于混合主题模型的文本蕴涵识别
被引量:2
- 5
-
-
作者
盛雅琦
张晗
吕晨
姬东鸿
-
机构
武汉大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第5期180-184,共5页
-
基金
国家自然科学基金资助面上项目"汉语文本推理的资源建设和统计分析研究"(61173062)
-
文摘
分析识别文本蕴涵的主流方法,并基于文本T和假设H可以从潜在混合主题中生成的猜想,提出一个混合主题模型来识别文本蕴涵,描述一个在混合主题模型上生成文本的概率模型。该模型把文本T和假设H看成是同一语义的不同表达,表示为多模式的数据,若文本T和假设H有蕴涵关系,则它们有相似的主题分布,共享混合词汇表和主题。设计mix LDA和LDA模型的对比实验,并对RTE-8任务进行测试,通过支持向量机对得到的句子相似度和其他词法句法特征进行分类。实验结果表明,基于混合主题模型的文本蕴涵识别具有较高的准确率。
-
关键词
文本蕴涵
主题模型
多模式
混合主题
隐藏语义
支持向量机
-
Keywords
textual entailment
topic model
multi mode
mixed topic
latent semantic
Support Vector Machine ( SVM )
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名融合词义信息的文本蕴涵识别方法
被引量:1
- 6
-
-
作者
杜倩龙
宗成庆
苏克毅
-
机构
中国科学院自动化研究所模式识别国家重点实验室
中国科学院大学人工智能学院
台湾“中央研究院”资讯科学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2021年第7期30-40,共11页
-
基金
国家自然科学基金(U1836221)。
-
文摘
文本蕴涵识别是对两个文本之间语义关系的有向推理,而词汇的词义对理解文本的语义以及推理文本之间的语义蕴涵关系有着重要作用。因此,为了有效利用词汇的词义信息推断文本之间的语义蕴涵关系,该文提出一种融合词义信息的文本蕴涵识别方法。该方法首次提出将原始的词汇转化为对应的目标词义,然后利用词汇的词义信息改善文本的语义表示和文本间语义关系的推理。实验表明,该文所提出的方法可以有效改善文本间语义关系的推理,从而提升文本蕴涵识别的准确率。
-
关键词
词义推断
文本蕴涵识别
语义推理
-
Keywords
word sense disambiguation
recognizing textual entailment
semantic inference
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合语义角色和自注意力机制的中文文本蕴含识别
被引量:9
- 7
-
-
作者
张志昌
曾扬扬
庞雅丽
-
机构
西北师范大学计算机科学与工程学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2020年第11期2162-2169,共8页
-
基金
国家自然科学基金(No.61762081,No.61662067,No.61662068)
甘肃省重点研发计划(No.17YF1GA016)。
-
文摘
文本蕴含识别旨在识别两个给定句子之间的逻辑关系.本文通过构造语义角色和自注意力机制融合模块,把句子的深层语义信息与Transformer模型的编码部分相结合,从而增强自注意力机制捕获句子语义的能力.针对中文文本蕴含识别在数据集上存在规模小和噪声大的问题,使用大规模预训练语言模型能够提升模型在小规模数据集上的识别性能.实验结果表明,提出的方法在第十七届中国计算语言学大会中文文本蕴含识别评测数据集CNLI上的准确率达到了80.28%.
-
关键词
自然语言处理
文本蕴含
自注意力机制
语义角色标注
预训练语言模型
-
Keywords
natural language processing
textual entailment
self-attention mechanism
semantic role labeling
pre-trained language model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-