期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于关键信息的问题相似度计算 被引量:4
1
作者 齐乐 张宇 刘挺 《计算机研究与发展》 EI CSCD 北大核心 2018年第7期1539-1547,共9页
判断问题相似是社区问答(community question answer,CQA)中很重要的一个研究方向.社区问答中的问题通常由主题和描述构成.由于社区问答的开放性,用户的提问长短不一,而问题中会包含大量干扰模型判断问题是否相似的背景信息.为了减少上... 判断问题相似是社区问答(community question answer,CQA)中很重要的一个研究方向.社区问答中的问题通常由主题和描述构成.由于社区问答的开放性,用户的提问长短不一,而问题中会包含大量干扰模型判断问题是否相似的背景信息.为了减少上述问题对计算问题相似度的影响,模型将关键词及问题主题视为问题的关键信息,并使用这些信息计算问题相似度.首先,在基于文本间相似及相异信息的CNN模型的基础上引入了关键词抽取技术.同时,为了更好地利用问题主题的信息,模型融合了问题主题相似度的特征.模型在SemEval2017评测的问题相似任务中进行了实验,其平均精度均值(mean average precision,MAP)达到了49.65%,超过了评测中的最佳结果. 展开更多
关键词 问题相似 社区问答 关键词 问题主题 卷积神经网络
在线阅读 下载PDF
基于依存句法分析的社会媒体文本挖掘方法——以饮食习惯特色分析为例 被引量:13
2
作者 任彬 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2014年第6期208-215,共8页
在进行社会媒体文本挖掘时,传统的基于词表的方法,存在准确率较低、词表难获得等问题。该文提出一种基于依存句法分析的文本挖掘方法,通过规则匹配的方式从社会媒体文本中提取信息。该方法不依赖词表,且实验证明了相比基于词表的方法在... 在进行社会媒体文本挖掘时,传统的基于词表的方法,存在准确率较低、词表难获得等问题。该文提出一种基于依存句法分析的文本挖掘方法,通过规则匹配的方式从社会媒体文本中提取信息。该方法不依赖词表,且实验证明了相比基于词表的方法在准确率上有大幅提高。应用基于依存句法分析的文本挖掘方法,我们在微博文本上进行了饮食习惯特色分析,实现了性别、地区、时间等维度的饮食习惯特色分析并可进行交叉分析,最终用词云的方式展示了结果。 展开更多
关键词 依存句法分析 文本挖掘 社会媒体 饮食习惯特色分析
在线阅读 下载PDF
基于跨社交媒体检索的微博消费对象识别 被引量:3
3
作者 付博 刘挺 《计算机科学与探索》 CSCD 北大核心 2015年第10期1247-1255,共9页
目前,微博消费意图识别问题成为新的研究热点。然而,已有工作主要判断微博是否具有商业意图,很少研究消费意图内容中消费对象的识别问题,而消费对象的识别是精确地进行商业推荐的关键,因此对其进行研究具有重要意义。微博内容较短且用... 目前,微博消费意图识别问题成为新的研究热点。然而,已有工作主要判断微博是否具有商业意图,很少研究消费意图内容中消费对象的识别问题,而消费对象的识别是精确地进行商业推荐的关键,因此对其进行研究具有重要意义。微博内容较短且用户用语不规范,基于词典匹配与依存关系分析的方法,在识别召回率上难以得到满意的效果。提出了一种基于跨媒体伪相关反馈的方法。首先分析具有消费意图微博中的关键词,而后将其视为查询提交给搜索引擎进行搜索,最后从搜索结果中提取消费意图对象。实验结果表明,提出的方法显著地优于基准方法。 展开更多
关键词 消费意图 消费对象 跨社交媒体检索 信息抽取 单语词对齐模型 社交媒体
在线阅读 下载PDF
省略识别及恢复联合模型研究 被引量:5
4
作者 尹庆宇 张伟男 +1 位作者 张宇 刘挺 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2460-2467,共8页
省略现象在对话中十分普遍,它的存在导致了语句成分的缺失.问答系统往往不能正确理解这些缺省的表述,这样就会产生错误的问答结果,所以,省略恢复在问答系统中是十分必要的.省略恢复通常分为零代词类别恢复、零代词指代消解2个步骤,已有... 省略现象在对话中十分普遍,它的存在导致了语句成分的缺失.问答系统往往不能正确理解这些缺省的表述,这样就会产生错误的问答结果,所以,省略恢复在问答系统中是十分必要的.省略恢复通常分为零代词类别恢复、零代词指代消解2个步骤,已有工作主要是将二者顺序执行,因此会造成错误的累加.为了克服上述问题,提出了1种零代词类别恢复和零代词指代消解联合模型(joint model)的方法,旨在通过联合模型融合省略恢复的2个步骤,进而提高恢复效果.实验结果表明,相比较已有的方法,引入联合模型后,省略恢复的性能得到了显著的提升. 展开更多
关键词 联合模型 省略恢复 零代词 指代消解 对话
在线阅读 下载PDF
基于文档的对话研究 被引量:1
5
作者 孙润鑫 马龙轩 +1 位作者 张伟男 刘挺 《计算机研究与发展》 EI CSCD 北大核心 2021年第9期1915-1924,共10页
基于文档的对话是目前对话领域一个新兴的热点任务.与以往的任务不同,其需要将对话信息和文档信息综合进行考虑.然而,先前的工作着重考虑二者之间的关系,却忽略了对话信息中的句子对回复生成的作用具有差异性.针对这一问题,提出了一种... 基于文档的对话是目前对话领域一个新兴的热点任务.与以往的任务不同,其需要将对话信息和文档信息综合进行考虑.然而,先前的工作着重考虑二者之间的关系,却忽略了对话信息中的句子对回复生成的作用具有差异性.针对这一问题,提出了一种新的辩证看待对话历史的方法,在编码阶段讨论利用历史和忽略历史2种情况进行语义信息的建模,并采用辩证整合的方式进行分支信息的汇总.由此避免了在历史信息与当前对话不相关时,其作为噪声被引入进而损害模型性能,同时也强化了当前对话对信息筛选的指导作用.实验结果表明,该模型与现有基线模型相比,能够生成更为符合当前语境且信息量更加丰富的回复,从而说明其能够更好地理解对话信息并进行知识筛选.并且通过进行消融实验,也验证了各模块在建模过程中的有效性. 展开更多
关键词 基于文档的对话 回复生成 信息筛选 Transformer模型 注意力机制
在线阅读 下载PDF
基于深度学习的中文短语复述抽取技术研究 被引量:1
6
作者 颜欣 张宇 +2 位作者 潘晓彤 刘作鹏 刘挺 《中文信息学报》 CSCD 北大核心 2021年第2期61-68,77,共9页
复述抽取是自然语言处理任务中的一个重要分支,高质量的复述资源对于提升信息检索、问答系统、机器翻译等任务的效果有很大帮助。该文将任务限定在中文短语复述抽取,提出了基于2BiLSTM+CNN+CRF的序列标注模型,用于单语中文语料短语划分... 复述抽取是自然语言处理任务中的一个重要分支,高质量的复述资源对于提升信息检索、问答系统、机器翻译等任务的效果有很大帮助。该文将任务限定在中文短语复述抽取,提出了基于2BiLSTM+CNN+CRF的序列标注模型,用于单语中文语料短语划分,通过若干过滤规则获取优质中文短语。之后又提出了基于表示学习的候选复述获取方法,通过BattRAE模型获取中文短语向量表示,并使用余弦相似度计算短语间的语义距离。该文根据语义距离对短语对进行过滤,将语义距离相近的短语视作候选的复述短语,再通过规则过滤掉错误的候选复述。在最后的结果中,随机抽取出500条短语复述资源进行人工评价,达到了0.814的精确度以及0.826的MRR值。 展开更多
关键词 复述抽取 短语划分 表示学习
在线阅读 下载PDF
基于论证关系判别的议论文句子排序研究
7
作者 冯骁骋 张凌源 +3 位作者 冯掌印 吴佳铭 孙承杰 秦兵 《中文信息学报》 CSCD 北大核心 2022年第4期156-165,共10页
议论文自动生成是自然语言生成中一项极具挑战性的任务,与诗歌、故事等生成任务不同,所生成的文章需要句子语义明确、论证结构清晰并合理地表达出核心论点。上述特点使得现有的预训练模型难以准确地建模并自动生成,因此传统的检索式方... 议论文自动生成是自然语言生成中一项极具挑战性的任务,与诗歌、故事等生成任务不同,所生成的文章需要句子语义明确、论证结构清晰并合理地表达出核心论点。上述特点使得现有的预训练模型难以准确地建模并自动生成,因此传统的检索式方法成为解决该问题的主要方式。但前人方法在句子检索和排序过程中只考虑了语义相关度,忽视了对逻辑论证关系的判别,导致语义不连贯、论证逻辑倒置等问题。针对上述问题,该文将自然语言推理应用于论证关系逻辑判别任务,提出了基于显式语义结构的论证关系逻辑判别方法,新模型在论证判别数据集上取得优于以往自然语言推理模型的效果。同时将论文判别结果作为显式特征应用于议论文句子排序模型,在议论文生成数据集中有效改善了排序模型的逻辑不一致问题并进一步提升了议论文生成系统的总体性能。 展开更多
关键词 论证关系 句子排序 语义结构信息 图神经网络
在线阅读 下载PDF
语言技术平台 被引量:54
8
作者 刘挺 车万翔 李正华 《中文信息学报》 CSCD 北大核心 2011年第6期53-62,共10页
中文信息处理不仅需要基础数据平台的支撑,而且需要基础技术平台的支撑。该文介绍了我们历经八年研制并不断改进的语言技术平台LTP(Language Technology Platform)。该平台包括中文词法分析、句法分析以及语义分析等多项中文处理技术,... 中文信息处理不仅需要基础数据平台的支撑,而且需要基础技术平台的支撑。该文介绍了我们历经八年研制并不断改进的语言技术平台LTP(Language Technology Platform)。该平台包括中文词法分析、句法分析以及语义分析等多项中文处理技术,其中的句法语义分析技术在CoNLL 2009国际评测中获得第一名的成绩。该平台自2006年起对学术界免费共享,2010年获得中国中文信息学会"钱伟长中文信息处理科学技术奖一等奖",目前已有400多家国内外研究机构签约共享该平台。2011年6月,该平台开放源代码,同行们不仅可以利用该平台的结果进行上层技术研究,而且可以和我们一起改进该平台本身。 展开更多
关键词 中文信息处理 语言技术平台
在线阅读 下载PDF
基于依存句法分析的复合事实型问句分解方法 被引量:7
9
作者 刘雄 张宇 +1 位作者 张伟男 刘挺 《中文信息学报》 CSCD 北大核心 2017年第3期140-146,共7页
问答系统一直以来都是自然语言处理领域的研究热点之一,然而现有问答系统技术对复合事实型问句的处理效果并不完美。为了增强问答系统理解复合事实型问句的能力,该文提出了一种针对复合事实型问句的分解方法:使用基于树核的支持向量机... 问答系统一直以来都是自然语言处理领域的研究热点之一,然而现有问答系统技术对复合事实型问句的处理效果并不完美。为了增强问答系统理解复合事实型问句的能力,该文提出了一种针对复合事实型问句的分解方法:使用基于树核的支持向量机对问句的分解类别进行识别,进而使用基于依存句法分析的方法生成分解结果。实验结果显示,在我们所构建的高质量问句分解语料库中,我们的方法对问句分解类别进行了准确的识别,同时也可以较好地生成嵌套型问句的子问句。 展开更多
关键词 问句分解 复合事实型问句 问句理解 问答系统 自然语言处理
在线阅读 下载PDF
基于主题增强卷积神经网络的用户兴趣识别 被引量:8
10
作者 杜雨萌 张伟男 刘挺 《计算机研究与发展》 EI CSCD 北大核心 2018年第1期188-197,共10页
提出了一种基于主题增强卷积神经网络的用户兴趣识别的方法,通过构造一个双通道CNN模型,融合连续语义信息和离散主题信息,获取用户微博类别分布,在此基础上,通过极大似然估计识别用户的兴趣.实验结果表明,相较于基于Labeled LDA主题模... 提出了一种基于主题增强卷积神经网络的用户兴趣识别的方法,通过构造一个双通道CNN模型,融合连续语义信息和离散主题信息,获取用户微博类别分布,在此基础上,通过极大似然估计识别用户的兴趣.实验结果表明,相较于基于Labeled LDA主题模型的方法和传统卷积神经网络的方法,提出的主题增强卷积神经网络缓解了噪声词对用户兴趣词的影响,并且通过融入主题信息提高了对于包含噪声词较多的微博的分类效果,在微博分类及用户兴趣识别上的效果获得了显著的提升. 展开更多
关键词 主题模型 卷积神经网络 微博分类 用户兴趣识别 微博
在线阅读 下载PDF
面向文本推理的知识增强预训练语言模型 被引量:4
11
作者 熊凯 杜理 +3 位作者 丁效 刘挺 秦兵 付博 《中文信息学报》 CSCD 北大核心 2022年第12期27-35,共9页
该文聚焦于利用丰富的知识对预训练语言模型进行增强以进行文本推理。预训练语言模型虽然在大量的自然语言处理任务上达到了很高的性能表现,具有很强的语义理解能力,但是大部分预训练语言模型自身包含的知识很难支撑其进行更高效的文本... 该文聚焦于利用丰富的知识对预训练语言模型进行增强以进行文本推理。预训练语言模型虽然在大量的自然语言处理任务上达到了很高的性能表现,具有很强的语义理解能力,但是大部分预训练语言模型自身包含的知识很难支撑其进行更高效的文本推理。为此,该文提出了一个知识增强的预训练语言模型进行文本推理的框架,使得图以及图结构的知识能够更深入地与预训练语言模型融合。在文本推理的两个子任务上,该文框架的性能超过了一系列的基线方法,实验结果和分析验证了模型的有效性。 展开更多
关键词 文本推理 事理图谱 知识图谱 预训练语言模型
在线阅读 下载PDF
基于DQN的开放域多轮对话策略学习 被引量:6
12
作者 宋皓宇 张伟男 刘挺 《中文信息学报》 CSCD 北大核心 2018年第7期99-108,136,共11页
有效地进行多轮对话是开放域人机对话系统的主要目标之一。目前的神经网络对话生成模型在开放域多轮对话过程中存在着容易产生万能回复、很快陷入死循环的问题;而已有的多轮对话研究工作存在着没有考虑未来对话走向的问题。借鉴强化学... 有效地进行多轮对话是开放域人机对话系统的主要目标之一。目前的神经网络对话生成模型在开放域多轮对话过程中存在着容易产生万能回复、很快陷入死循环的问题;而已有的多轮对话研究工作存在着没有考虑未来对话走向的问题。借鉴强化学习方法考虑全局的视角,该文利用深度强化学习算法DQN(deep Q-network),提出了使用深度价值网络对每一轮的候选句子进行评估,并选择未来收益最大的而非生成概率最大的句子作为回复的多轮对话策略学习方法。实验结果表明,该文提出的方法将多轮对话的平均对话轮数提高了两轮,同时在主观对比评价指标上获胜比例高出了45%。 展开更多
关键词 多轮对话 对话策略 强化学习
在线阅读 下载PDF
基于同义词词林和预训练词向量的微调方法 被引量:2
13
作者 佘琪星 王必聪 +2 位作者 刘铭 秦兵 王莉峰 《中文信息学报》 CSCD 北大核心 2020年第10期27-32,共6页
同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向... 同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。 展开更多
关键词 同义词挖掘 预训练词向量 语义表示 微调
在线阅读 下载PDF
基于贝叶斯网络的实体属性补全 被引量:3
14
作者 佘琪星 姜天文 +1 位作者 刘铭 秦兵 《中文信息学报》 CSCD 北大核心 2021年第5期55-62,共8页
属性是实体的重要组成部分,因此实体属性的获取是知识图谱构建的关键步骤。由哈尔滨工业大学社会计算与信息检索研究中心推出的开放域中文知识图谱《大词林》是通过从文本中自动挖掘实体及实体间的关系构建而成的,因此为《大词林》中缺... 属性是实体的重要组成部分,因此实体属性的获取是知识图谱构建的关键步骤。由哈尔滨工业大学社会计算与信息检索研究中心推出的开放域中文知识图谱《大词林》是通过从文本中自动挖掘实体及实体间的关系构建而成的,因此为《大词林》中缺少属性的实体添加属性也成为必须研究的问题之一。该文提出了一种解决方案:基于贝叶斯网络的概率统计模型,通过上位词概念与属性之间的依赖关系和实体与上位词概念的依赖关系来自动地为《大词林》中没有属性的实体添加属性,并与相似度计算方法对比证明了其有效性,可大规模提高《大词林》的属性覆盖率。 展开更多
关键词 属性补全 知识图谱 大词林
在线阅读 下载PDF
面向话题的讽刺识别:新任务、新数据和新方法 被引量:4
15
作者 梁斌 林子杰 +1 位作者 徐睿峰 秦兵 《中文信息学报》 CSCD 北大核心 2023年第2期138-147,157,共11页
现有的文本讽刺识别研究通常只关注句子级别的讽刺表达识别,但缺乏考虑讽刺对象对讽刺表达的影响。针对这一问题,该文提出一个新的面向话题的讽刺识别任务。该任务通过话题的引入,以话题作为讽刺对象,有助于更好地理解和建模讽刺表达。... 现有的文本讽刺识别研究通常只关注句子级别的讽刺表达识别,但缺乏考虑讽刺对象对讽刺表达的影响。针对这一问题,该文提出一个新的面向话题的讽刺识别任务。该任务通过话题的引入,以话题作为讽刺对象,有助于更好地理解和建模讽刺表达。对应地,该文构建了一个新的面向话题的讽刺识别数据集,包含707个话题,以及对应的4871个话题-评论对组。在此基础上,基于提示学习和大规模预训练语言模型,该文提出了一种面向话题的讽刺表达提示学习模型。在该文构建的面向话题讽刺识别数据集上的实验结果表明,相比基线模型,该文所提出的面向话题的讽刺表达提示学习模型性能更优。同时,实验分析也表明,面向话题的讽刺识别任务相比传统的句子级讽刺识别任务更具挑战性。本文的数据集和代码已发布在https://github.com/HITSZ-HLT/Tosarcasm. 展开更多
关键词 讽刺识别 面向话题的讽刺识别 提示学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部