期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于主题区域发现的中文自动文摘研究 被引量:5
1
作者 胡珀 何婷婷 姬东鸿 《计算机科学》 CSCD 北大核心 2005年第1期177-181,共5页
自动文摘是自然语言处理领域的一项重要的研究课题。文中提出了一种基于主题区域发现的中文自动文摘的方法。该方法的特色在于:产生的文摘能在尽可能全面地覆盖全文多个主题的同时,显著地缩减自身的冗余,从而能有效地平衡两者之间的矛... 自动文摘是自然语言处理领域的一项重要的研究课题。文中提出了一种基于主题区域发现的中文自动文摘的方法。该方法的特色在于:产生的文摘能在尽可能全面地覆盖全文多个主题的同时,显著地缩减自身的冗余,从而能有效地平衡两者之间的矛盾。通过采用K-medoids的聚类算法联同新的自定义目标函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题区域的发现及其在自动文摘领域的应用。此外,一种基于表达熵的新的评价因子被用来评价摘要的冗余。实验结果验证了该方法的可行性,有效性,是对中文自动文摘研究的一种有意义的探索。 展开更多
关键词 主题区域发现 中文自动文摘 聚类分析 表达熵 文本检索
在线阅读 下载PDF
中文机器阅读理解的鲁棒性研究 被引量:4
2
作者 李烨秋 唐竑轩 +2 位作者 钱锦 邹博伟 洪宇 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第1期16-22,共7页
为了更好地评价阅读理解模型的鲁棒性,基于Dureader数据集,通过自动抽取和人工标注的方法,对过敏感、过稳定和泛化3个问题分别构建测试数据集。还提出基于答案抽取和掩码位置预测的多任务学习方法。实验结果表明,所提方法能显著地提高... 为了更好地评价阅读理解模型的鲁棒性,基于Dureader数据集,通过自动抽取和人工标注的方法,对过敏感、过稳定和泛化3个问题分别构建测试数据集。还提出基于答案抽取和掩码位置预测的多任务学习方法。实验结果表明,所提方法能显著地提高阅读理解模型的鲁棒性,所构建的测试集能够对模型的鲁棒性进行有效评估。 展开更多
关键词 机器阅读理解 鲁棒性 中文语料库
在线阅读 下载PDF
从搭配知识获取最优种子的词义消歧方法 被引量:13
3
作者 全昌勤 何婷婷 +1 位作者 姬东鸿 刘辉 《中文信息学报》 CSCD 北大核心 2005年第1期30-35,共6页
基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词 ,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识 ,但人工获取质量较好的初始搭配是比较困难的 ,并且无法保证有效的扩大搭配知识。针对该问题 ,提出... 基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词 ,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识 ,但人工获取质量较好的初始搭配是比较困难的 ,并且无法保证有效的扩大搭配知识。针对该问题 ,提出了通过机器学习初始搭配实例获取最优种子 ,再由最优种子扩增更多指示词 ,最后利用这些指示词实现具有多个义项的多义词消歧。采用该方法对 8个多义词进行消歧的测试实验中取得了 87 7%的平均正确率。 展开更多
关键词 人工智能 自然语言处理 自然语言处理 词义消歧 搭配 种子优选
在线阅读 下载PDF
基于指示词的词义消歧方法
4
作者 全昌勤 何婷婷 +1 位作者 姬东鸿 刘辉 《计算机工程》 EI CAS CSCD 北大核心 2005年第16期48-50,共3页
影响词义消歧的特征是多方面的,为考察上下文指示词这一消歧特征,提出了利用统计的方法抽取指示词用于词义消歧。实验表明,该方法是可行的,并为利用多特征进行汉语自动消歧提供了可靠的参考。
关键词 自然语言处理 词义消歧 指示词 相似性
在线阅读 下载PDF
基于跨语言广义向量空间模型的跨语言文档聚类方法 被引量:6
5
作者 唐国瑜 夏云庆 +1 位作者 张民 郑方 《中文信息学报》 CSCD 北大核心 2012年第2期116-120,共5页
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual ... 跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。 展开更多
关键词 跨语言文档聚类 跨语言广义向量空间模型 文档聚类 跨语言信息检索
在线阅读 下载PDF
基于多任务学习的生成式阅读理解 被引量:4
6
作者 钱锦 黄荣涛 +1 位作者 邹博伟 洪宇 《中文信息学报》 CSCD 北大核心 2021年第12期103-111,121,共10页
生成式阅读理解是机器阅读理解领域一项新颖且极具挑战性的研究。与主流的抽取式阅读理解相比,生成式阅读理解模型不再局限于从段落中抽取答案,而是能结合问题和段落生成自然和完整的表述作为答案。然而,现有的生成式阅读理解模型缺乏... 生成式阅读理解是机器阅读理解领域一项新颖且极具挑战性的研究。与主流的抽取式阅读理解相比,生成式阅读理解模型不再局限于从段落中抽取答案,而是能结合问题和段落生成自然和完整的表述作为答案。然而,现有的生成式阅读理解模型缺乏对答案在段落中的边界信息以及对问题类型信息的理解。为解决上述问题,该文提出一种基于多任务学习的生成式阅读理解模型。该模型在训练阶段将答案生成任务作为主任务,答案抽取和问题分类任务作为辅助任务进行多任务学习,同时学习和优化模型编码层参数;在测试阶段加载模型编码层进行解码生成答案。实验结果表明,答案抽取模型和问题分类模型能够有效提升生成式阅读理解模型的性能。 展开更多
关键词 多任务学习 生成式阅读理解
在线阅读 下载PDF
基于词义类簇的文本聚类 被引量:2
7
作者 唐国瑜 夏云庆 +1 位作者 张民 郑方 《中文信息学报》 CSCD 北大核心 2013年第3期113-119,共7页
文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空... 文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空间,然后将文档表示在词义类簇空间上,获得每篇文档在每个词义类簇的概率。在词义类簇空间构造这一步骤中,首先利用词义归纳技术从文本中自动发现词义,接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空间构造后,该文首先进行词义消歧,然后利用词义消歧的结果将文档表示在词义空间上。实验表明,SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。 展开更多
关键词 文档聚类 文档表示 话题模型
在线阅读 下载PDF
基于双层注意力机制的篇章级事件真实性检测
8
作者 盛佳璇 邹博伟 +1 位作者 陈佳丽 洪宇 《中文信息学报》 CSCD 北大核心 2023年第6期128-136,共9页
自然语言文本中的事件真实性指作者对给定事件存在于客观世界中的确定性程度的描述,正确识别文本中事件的真实性,有助于对自然语言进行深层语义理解。同时,事件真实性检测对诸多自然语言处理应用,如观点检测、事件图谱构建、情感分析等... 自然语言文本中的事件真实性指作者对给定事件存在于客观世界中的确定性程度的描述,正确识别文本中事件的真实性,有助于对自然语言进行深层语义理解。同时,事件真实性检测对诸多自然语言处理应用,如观点检测、事件图谱构建、情感分析等具有重要意义。目前,大多数事件真实性检测研究集中在句子级任务上,而在同一篇章中,经常出现针对同一事件真实性表述不同的情况,此时仅在句子层面识别事件真实性可能会导致矛盾。针对该问题,该文提出了一个基于双层注意力机制的篇章级事件真实性检测方法。首先,利用预训练语言模型BERT对句子进行编码;其次,采用图注意力网络学习句子中的上下文信息与事件之间的依赖关系;最后,利用文档级注意力机制抽取不同句子序列之间的潜在关联,从事件序列集合中获取篇章级事件真实性的最终特征表示。实验结果验证了该方法的有效性,在英文和中文数据集上的实验结果显示,该文所提出方法F1值分别达到87.91%和87.92%,与目前最好系统相比,分别提升了1.40%和1.28%。 展开更多
关键词 篇章级事件真实性 图注意力神经网络 文档级注意力机制
在线阅读 下载PDF
连续预测脑机接口的信息积累方法 被引量:1
9
作者 朱晓源 吴健康 程义民 《中国生物医学工程学报》 CAS CSCD 北大核心 2007年第4期523-527,共5页
设计有效的学习算法快速准确地对脑电信号进行连续预测是脑机接口研究的关键之一。本研究给出了一种基于变分贝叶斯算法的理论框架通过区分度权值进行信息积累,从而对脑电信号分类。此方法将对区分度权值和分类器参数的估计融为一体,使... 设计有效的学习算法快速准确地对脑电信号进行连续预测是脑机接口研究的关键之一。本研究给出了一种基于变分贝叶斯算法的理论框架通过区分度权值进行信息积累,从而对脑电信号分类。此方法将对区分度权值和分类器参数的估计融为一体,使得这两部分在学习的过程中可以互相协调。在两个运动想象数据集上的实验结果表明本方法能够提高BCI系统的性能,具有较好的实用性。 展开更多
关键词 脑机接口 脑电信号 连续预测 变分贝叶斯方法 贝叶斯学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部