题名 基于语言特征增强的方面情感三元组抽取
1
作者
黄梓芃
曾碧卿
陈鹏飞
周斯颖
机构
华南师范大学软件学院
出处
《计算机工程》
北大核心
2025年第6期83-92,共10页
基金
国家自然科学基金(62076103)
广东省普通高校人工智能重点领域专项(2019KZDZX1033)
+1 种基金
广东省信息物理融合系统重点实验室课题(2020B1212060069)
广东省基础与应用基础研究基金项目(2021A1515011171)。
文摘
方面情感三元组抽取是方面级情感分析中的一个重要子任务,旨在从句子中抽取方面词、意见词和情感极性。近年来,句法依赖树结合图卷积网络(GCN)已经在三元组抽取任务中取得了良好的效果。然而,这些方法大多没有充分利用语言特征,也没有对语言特征进行增强,且大部分忽略了全局上下文核心信息。因此,提出一种基于语言特征增强的方面情感三元组抽取模型LFE。首先,引入关键词的词性特征以充分利用语义信息;接着,考虑句法依赖类型,计算词间的相对句法依赖距离,使词能够关注离它较近的词的句法特征;然后,采用双仿射注意力机制结合GCN来增强语义和句法特征,GCN及双仿射注意力机制能有效地利用句法依赖树的结构信息,并将其融入模型中;最后,对全局特征与语言特征进行融合,以确保全局上下文中的关键信息不被忽略,从而提高模型的鲁棒性。实验结果表明,LFE模型在Res14、Lap14、Res15、Res16等4个数据集上的F1值相对GCN-EGTS-BERT模型分别提高了3.52、5.32、1.97、2.63百分点,证明其具有可行性和有效性。
关键词
方面情感三元组抽取
语言 特征
关键词 词性
相对句法依赖距离
图卷积网络
Keywords
aspect sentiment triplet extraction
linguistic features
keyword lexicality
relative syntactic dependency distance
Graph Convolutional Networks(GCN)
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于主题特征的关键词抽取
被引量:30
2
作者
刘俊
邹东升
邢欣来
李英豪
机构
重庆大学计算机学院
出处
《计算机应用研究》
CSCD
北大核心
2012年第11期4224-4227,共4页
基金
中国博士后科学基金资助项目(20110490807)
中央高校基金科研业务资助项目(CDJXS10181131)
文摘
为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。
关键词
关键词 抽取
主题特征
主题模型
装袋决策树
Keywords
keyphrase extraction
topic feature
topic model
bagged decision trees
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 海量数据集上基于特征组合的关键词自动抽取
被引量:17
3
作者
张庆国
薛德军
张振海
张君玉
机构
中国学术期刊(光盘版)电子杂志社清华同方光盘股份有限公司
中国科学院研究生院数学系
出处
《情报学报》
CSSCI
北大核心
2006年第5期587-593,共7页
文摘
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇。小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及。本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法。该方法构造了一个大规模的关键词词典;基于TF×IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求。本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当。使用自动评价和人工评价两种方法对抽取的关键词进行了评估。专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受。
关键词
关键词 自动抽取
特征 组合
海量数据集
TF×IDF
Keywords
automatic keyword extraction, feature combination, massive data sets, TF × IDF
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
题名 改进的关键词抽取方法研究
被引量:4
4
作者
邓箴
包宏
机构
北京科技大学信息工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2009年第20期4677-4680,4769,共5页
基金
国家973重点基础研究发展计划基金项目(2007CB613507)
文摘
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略。首次提出了用支持向量机对最后的抽取结果进行优化。实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率。
关键词
关键词抽取语言学特征
特征 拟合
多元文法
支持向量机
Keywords
keyword extraction
linguistic characteristics
feature combination
n-grams method
support vector machines
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 结合主题分布与统计特征的关键词抽取方法
被引量:9
5
作者
刘啸剑
谢飞
机构
合肥工业大学计算机与信息学院
合肥师范学院计算机学院
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第7期217-222,共6页
基金
国家自然科学基金(61229301)
文摘
传统人工抽取关键词耗时耗力,为了能自动从文档中抽取出高质量的关键词,提出一种关键词自动抽取方法。该方法基于文档和词语的主题信息并结合词语的统计特征为候选词语打分,最终选择TopK得分的候选词作为文档关键词。实验结果表明,该方法在准确率、召回率以及F值上均优于现有的基本关键词抽取方法,能有效从文档中抽取出关键词。
关键词
主题分布
关键词 抽取
统计特征
主题信息
候选词语
Keywords
topic distribution
keyword extraction
statistical features
topic information
candidate words
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 融合多粒度抽取式特征的关键词生成
6
作者
甄田歌
宋明阳
景丽萍
机构
北京交通大学计算机与信息技术学院
交通数据分析与挖掘北京市重点实验室(北京交通大学)
出处
《计算机科学》
CSCD
北大核心
2023年第4期181-187,共7页
基金
国家自然科学基金(61822601,61773050,61632004)
北京市自然科学基金(Z180006)
北京市科委项目(Z181100008918012)。
文摘
关键词是概括给定文本核心主题及关键内容的一组短语。在信息过载日益严重的今天,从给定的大量文本信息中预测出具有其中心思想的关键词至关重要。因此,关键词预测作为自然语言处理的基本任务之一,受到越来越多研究者的关注。其对应方法主要包括两类:关键词抽取和关键词生成。关键词抽取是从给定文本中快速、准确地抽取文中出现过的显著性短语作为关键词。与关键词抽取不同,关键词生成既能预测出现在给定文本中的关键词,也能预测未出现在给定文本中的关键词。总而言之,这两类方法各有优劣。然而,现有的关键词生成工作大多忽视了抽取式特征可能为关键词生成模型带来的潜在收益。抽取式特征能指明原文本的重要片段,对于模型学习原文本的深层语义表示起到重要作用。因此,结合抽取式和生成式方法的优势,提出了一种新的融合多粒度抽取式特征的关键词生成模型(incorporating Multi-Granularity Extractive features for keyphrase generation,MGE-Net)。在一系列公开数据集上的实验结果表明,和近年来的关键词生成模型相比,所提模型在大多数评价指标上取得了显著的性能提升。
关键词
自然语言 处理
序列到序列
关键词 生成
抽取 式特征
多任务学习
Keywords
Natural language processing
Sequence-to-Sequence
Keyphrase generation
Extractive features
Multi-task learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 裁判文书关键词提取的改进方法研究
被引量:4
7
作者
白凤波
常林
王世凡
李彬
王颖洁
周红
刘耀
机构
中国政法大学证据科学研究院
浙江迪安鉴定科学研究院
中国科学技术大学软件学院
大连大学信息工程学院
公安部物证鉴定中心
出处
《计算机工程与应用》
CSCD
北大核心
2020年第23期153-160,共8页
基金
中国工程院中长期咨询研究项目(No.2017-ZCQ-10)。
文摘
在国家加强依法治国的方针指引下,自然语言处理(NLP)和信息检索(IR)等领域与法治社会的深入结合是必然趋势。为司法工作者提供正确、全面的智能化辅助以提高工作效率,对裁判文书的关键词提取方法进行了研究。针对传统关键词提取方法的劣势,结合词语的词性、长度、词跨度、位置以及文档所属类别等多重因素,并基于图模型的TextRank算法,提出了一种改进的TF-IDF算法(IAKEF),引入信息熵、离散度、融合特征的概念,主要解决了传统算法对于词语在语义上的忽略和类间、类内信息分布上的问题,使其能够更有效地从文本中选择特征。通过对比实验,对改进算法的效果进行分析和评价,实验结果表明改进的算法与传统的算法相比在准确率、召回率及F1-Measure上均有显著的提高。
关键词
改进TF-IDF
关键词 抽取
信息熵
离散度
特征 融合
Keywords
improved TF-IDF
keyword extraction
information entropy
dispersion
feature fusion
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 导弹领域文本嵌套命名实体识别方法研究
被引量:5
8
作者
关景文
宋晓
李晓庆
杨彤
周军华
机构
北京航空航天大学自动化学院
北京航空航天大学网络空间安全学院
北京仿真中心
出处
《系统仿真学报》
CAS
CSCD
北大核心
2023年第8期1757-1767,共11页
基金
国家重点研发计划(2020YFB1712203)。
文摘
常规领域文本识别相对容易,而专业术语存在大量嵌套命名实体,识别难度大,是构建航空航天领域知识图谱的核心挑战之一。现有的命名实体识别技术多采用双向长短记忆网络加条件随机场(BiLSTM-CRF)识别实体,很难区分导弹领域术语的嵌套、交叉等复杂关系。为解决这一难题,在对领域文本进行嵌套实体标注的基础上,提出一种融合语言学特征、基于机器阅读理解的嵌套命名实体识别方法,引入先验知识、改变解码方式,以问答形式进行多任务预测。实验表明:所提方法能有效提高导弹领域文本嵌套实体识别的准确率和召回率,其综合指标F1值相较于基于BiLSTM-CRF的嵌套命名实体识别方法提高了13.89%。
关键词
导弹
嵌套命名实体识别
知识抽取
机器阅读理解
语言学 特征
Keywords
missile
nested named entity recognition
knowledge extraction
machine reading comprehension
linguistic features
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]