期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于语言特征增强的方面情感三元组抽取
1
作者 黄梓芃 曾碧卿 +1 位作者 陈鹏飞 周斯颖 《计算机工程》 北大核心 2025年第6期83-92,共10页
方面情感三元组抽取是方面级情感分析中的一个重要子任务,旨在从句子中抽取方面词、意见词和情感极性。近年来,句法依赖树结合图卷积网络(GCN)已经在三元组抽取任务中取得了良好的效果。然而,这些方法大多没有充分利用语言特征,也没有... 方面情感三元组抽取是方面级情感分析中的一个重要子任务,旨在从句子中抽取方面词、意见词和情感极性。近年来,句法依赖树结合图卷积网络(GCN)已经在三元组抽取任务中取得了良好的效果。然而,这些方法大多没有充分利用语言特征,也没有对语言特征进行增强,且大部分忽略了全局上下文核心信息。因此,提出一种基于语言特征增强的方面情感三元组抽取模型LFE。首先,引入关键词的词性特征以充分利用语义信息;接着,考虑句法依赖类型,计算词间的相对句法依赖距离,使词能够关注离它较近的词的句法特征;然后,采用双仿射注意力机制结合GCN来增强语义和句法特征,GCN及双仿射注意力机制能有效地利用句法依赖树的结构信息,并将其融入模型中;最后,对全局特征与语言特征进行融合,以确保全局上下文中的关键信息不被忽略,从而提高模型的鲁棒性。实验结果表明,LFE模型在Res14、Lap14、Res15、Res16等4个数据集上的F1值相对GCN-EGTS-BERT模型分别提高了3.52、5.32、1.97、2.63百分点,证明其具有可行性和有效性。 展开更多
关键词 方面情感三元组抽取 语言特征 关键词词性 相对句法依赖距离 图卷积网络
在线阅读 下载PDF
基于主题特征的关键词抽取 被引量:30
2
作者 刘俊 邹东升 +1 位作者 邢欣来 李英豪 《计算机应用研究》 CSCD 北大核心 2012年第11期4224-4227,共4页
为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词... 为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。 展开更多
关键词 关键词抽取 主题特征 主题模型 装袋决策树
在线阅读 下载PDF
海量数据集上基于特征组合的关键词自动抽取 被引量:17
3
作者 张庆国 薛德军 +1 位作者 张振海 张君玉 《情报学报》 CSSCI 北大核心 2006年第5期587-593,共7页
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇。小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及。本文利用现有... 关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇。小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及。本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法。该方法构造了一个大规模的关键词词典;基于TF×IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求。本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当。使用自动评价和人工评价两种方法对抽取的关键词进行了评估。专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受。 展开更多
关键词 关键词自动抽取 特征组合 海量数据集 TF×IDF
在线阅读 下载PDF
改进的关键词抽取方法研究 被引量:4
4
作者 邓箴 包宏 《计算机工程与设计》 CSCD 北大核心 2009年第20期4677-4680,4769,共5页
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优... 在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略。首次提出了用支持向量机对最后的抽取结果进行优化。实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率。 展开更多
关键词 关键词抽取语言学特征 特征拟合 多元文法 支持向量机
在线阅读 下载PDF
结合主题分布与统计特征的关键词抽取方法 被引量:9
5
作者 刘啸剑 谢飞 《计算机工程》 CAS CSCD 北大核心 2017年第7期217-222,共6页
传统人工抽取关键词耗时耗力,为了能自动从文档中抽取出高质量的关键词,提出一种关键词自动抽取方法。该方法基于文档和词语的主题信息并结合词语的统计特征为候选词语打分,最终选择TopK得分的候选词作为文档关键词。实验结果表明,该方... 传统人工抽取关键词耗时耗力,为了能自动从文档中抽取出高质量的关键词,提出一种关键词自动抽取方法。该方法基于文档和词语的主题信息并结合词语的统计特征为候选词语打分,最终选择TopK得分的候选词作为文档关键词。实验结果表明,该方法在准确率、召回率以及F值上均优于现有的基本关键词抽取方法,能有效从文档中抽取出关键词。 展开更多
关键词 主题分布 关键词抽取 统计特征 主题信息 候选词语
在线阅读 下载PDF
融合多粒度抽取式特征的关键词生成
6
作者 甄田歌 宋明阳 景丽萍 《计算机科学》 CSCD 北大核心 2023年第4期181-187,共7页
关键词是概括给定文本核心主题及关键内容的一组短语。在信息过载日益严重的今天,从给定的大量文本信息中预测出具有其中心思想的关键词至关重要。因此,关键词预测作为自然语言处理的基本任务之一,受到越来越多研究者的关注。其对应方... 关键词是概括给定文本核心主题及关键内容的一组短语。在信息过载日益严重的今天,从给定的大量文本信息中预测出具有其中心思想的关键词至关重要。因此,关键词预测作为自然语言处理的基本任务之一,受到越来越多研究者的关注。其对应方法主要包括两类:关键词抽取和关键词生成。关键词抽取是从给定文本中快速、准确地抽取文中出现过的显著性短语作为关键词。与关键词抽取不同,关键词生成既能预测出现在给定文本中的关键词,也能预测未出现在给定文本中的关键词。总而言之,这两类方法各有优劣。然而,现有的关键词生成工作大多忽视了抽取式特征可能为关键词生成模型带来的潜在收益。抽取式特征能指明原文本的重要片段,对于模型学习原文本的深层语义表示起到重要作用。因此,结合抽取式和生成式方法的优势,提出了一种新的融合多粒度抽取式特征的关键词生成模型(incorporating Multi-Granularity Extractive features for keyphrase generation,MGE-Net)。在一系列公开数据集上的实验结果表明,和近年来的关键词生成模型相比,所提模型在大多数评价指标上取得了显著的性能提升。 展开更多
关键词 自然语言处理 序列到序列 关键词生成 抽取特征 多任务学习
在线阅读 下载PDF
裁判文书关键词提取的改进方法研究 被引量:4
7
作者 白凤波 常林 +4 位作者 王世凡 李彬 王颖洁 周红 刘耀 《计算机工程与应用》 CSCD 北大核心 2020年第23期153-160,共8页
在国家加强依法治国的方针指引下,自然语言处理(NLP)和信息检索(IR)等领域与法治社会的深入结合是必然趋势。为司法工作者提供正确、全面的智能化辅助以提高工作效率,对裁判文书的关键词提取方法进行了研究。针对传统关键词提取方法的劣... 在国家加强依法治国的方针指引下,自然语言处理(NLP)和信息检索(IR)等领域与法治社会的深入结合是必然趋势。为司法工作者提供正确、全面的智能化辅助以提高工作效率,对裁判文书的关键词提取方法进行了研究。针对传统关键词提取方法的劣势,结合词语的词性、长度、词跨度、位置以及文档所属类别等多重因素,并基于图模型的TextRank算法,提出了一种改进的TF-IDF算法(IAKEF),引入信息熵、离散度、融合特征的概念,主要解决了传统算法对于词语在语义上的忽略和类间、类内信息分布上的问题,使其能够更有效地从文本中选择特征。通过对比实验,对改进算法的效果进行分析和评价,实验结果表明改进的算法与传统的算法相比在准确率、召回率及F1-Measure上均有显著的提高。 展开更多
关键词 改进TF-IDF 关键词抽取 信息熵 离散度 特征融合
在线阅读 下载PDF
导弹领域文本嵌套命名实体识别方法研究 被引量:5
8
作者 关景文 宋晓 +2 位作者 李晓庆 杨彤 周军华 《系统仿真学报》 CAS CSCD 北大核心 2023年第8期1757-1767,共11页
常规领域文本识别相对容易,而专业术语存在大量嵌套命名实体,识别难度大,是构建航空航天领域知识图谱的核心挑战之一。现有的命名实体识别技术多采用双向长短记忆网络加条件随机场(BiLSTM-CRF)识别实体,很难区分导弹领域术语的嵌套、交... 常规领域文本识别相对容易,而专业术语存在大量嵌套命名实体,识别难度大,是构建航空航天领域知识图谱的核心挑战之一。现有的命名实体识别技术多采用双向长短记忆网络加条件随机场(BiLSTM-CRF)识别实体,很难区分导弹领域术语的嵌套、交叉等复杂关系。为解决这一难题,在对领域文本进行嵌套实体标注的基础上,提出一种融合语言学特征、基于机器阅读理解的嵌套命名实体识别方法,引入先验知识、改变解码方式,以问答形式进行多任务预测。实验表明:所提方法能有效提高导弹领域文本嵌套实体识别的准确率和召回率,其综合指标F1值相较于基于BiLSTM-CRF的嵌套命名实体识别方法提高了13.89%。 展开更多
关键词 导弹 嵌套命名实体识别 知识抽取 机器阅读理解 语言学特征
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部