-
题名基于异构图分层学习的细粒度多文档摘要抽取
- 1
-
-
作者
翁裕源
许柏炎
蔡瑞初
-
机构
广东工业大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第3期336-344,共9页
-
基金
科技创新2030—“新一代人工智能”重大项目(2021ZD0111501)
国家优秀青年科学基金(62122022)
国家自然科学基金(61876043,61976052,62206064)。
-
文摘
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。
-
关键词
抽取式多文档摘要
细粒度建模
异构图
分层学习
语义关系
结构关系
-
Keywords
extractive multi-document summarization
fine-grained modeling
heterogeneous graph
hierarchical learning
semantic relation
structural relation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于事件项语义图聚类的多文档摘要方法
被引量:6
- 2
-
-
作者
刘茂福
李文捷
姬东鸿
-
机构
武汉科技大学计算机科学与技术学院
香港理工大学计算机系
武汉大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2010年第5期77-84,共8页
-
基金
湖北省自然科学基金资助项目(2009CDB311)
国家自然科学基金重大研究计划资助项目(90820005)
-
文摘
基于事件的抽取式摘要方法一般首先抽取那些描述重要事件的句子,然后把它们重组并生成摘要。该文将事件定义为事件项以及与其关联的命名实体,并聚焦从外部语义资源获取的事件项语义关系。首先基于事件项语义关系创建事件项语义关系图并使用改进的DBSCAN算法对事件项进行聚类,接着为每类选择一个代表事件项或者选择一类事件项来表示文档集的主题,最后从文档抽取那些包含代表项并且最重要的句子生成摘要。该文的实验结果证明在多文档自动摘要中考虑事件项语义关系是必要的和可行的。
-
关键词
基于事件的摘要
事件语义关系图
DBSCAN聚类算法
-
Keywords
event-based summarization
event semantic relation graph
DBSCAN clustering algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于整数线性规划重构抽象语义图结构的语义摘要算法
被引量:3
- 3
-
-
作者
陈鸿昶
明拓思宇
刘树新
高超
-
机构
国家数字交换系统工程技术研究中心
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2019年第7期1674-1681,共8页
-
基金
国家自然科学基金(61521003)
国家自然科学基金青年科学基金(61601513)~~
-
文摘
针对利用抽象语义(AMR)图来预测摘要子图存在的语义结构不完整问题,该文提出一种基于整数线性规划(ILP)重构AMR图结构的语义摘要算法。首先将数据预处理生成一个AMR总图;然后基于统计特征从AMR总图中抽取出摘要子图重要节点信息;最后利用ILP的方法来对摘要子图中节点关系进行重构,利用完整的摘要子图恢复生成语义摘要。实验结果表明,相比其他语义摘要方法,所提方法的ROUGE值和Smatch值都有显著提高,最多分别提高了9%和14%,该方法有利于提高语义摘要的质量。
-
关键词
抽象语义图
语义摘要
摘要子图
语义结构
整数线性规划
-
Keywords
Abstract Meaning Representation (AMR) graph
semantic summarization
Summary subgraph
semantic structure
Integer Linear Programming (ILP)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于文档语义图的中文多文档摘要生成机制
被引量:6
- 4
-
-
作者
宋锐
林鸿飞
-
机构
大连理工大学计算机科学与工程系
-
出处
《中文信息学报》
CSCD
北大核心
2009年第3期110-115,共6页
-
基金
国家自然科学基金资助项目(60373095
60673039)
国家863高科技计划资助项目(2006AA01Z151)
-
文摘
从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,选取包含权重较高的节点及链接关系的三元组生成文档集合的多文档摘要。在摘要的评测阶段,将基于句子抽取的多文档摘要结果和基于文档语义图生成的多文档摘要分别与由评测员人工生成的摘要进行ROUGE相关度评测,并对利用编辑距离对语义图进行语义聚类前后的结果进行了比较。实验结果表明,基于文档语义图生成的多文档摘要与人工生成的摘要结果重叠度更高,而利用编辑距离对语义图进行聚类则进一步改进了摘要的质量。
-
关键词
计算机应用
中文信息处理
文档语义图
编辑距离
PAGERANK
ROUGE
中文多文档摘要
-
Keywords
computer application
Chinese information processing
document semantic graph
edit distance
Page-Rank
ROUGE
Chinese multi-document summarization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于本体分割的语义图概要方法
- 5
-
-
作者
王艺
王英
-
机构
西南大学计算机与信息科学学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第10期67-74,共8页
-
基金
西南大学教育教学改革研究项目(2019JY048)
第47批留学回国人员科研启动基金。
-
文摘
语义图概要的目的是提取语义图的关键信息,形成原数据集的概要模型以解决大规模语义图的理解、查询、应用难题。为提升现有语义图概要方法效率,提出一种基于本体分割的概要方法。通过本体分割算法对语义图进行分割生成扩展子图。采用形式概念分析对每个扩展子图生成元素的偏序格(又称特征集格)。在此基础上,由所有子图的特征集格形成了原语义图的概要。在关联开放数据集和Berlin SPARQL Benchmark数据集上的实验结果表明,该方法具有较好的可扩展性,有效提高了概要方法的效率。
-
关键词
语义图
知识图谱
关联开放数据
语义图概要
形式概念分析
-
Keywords
semantic graph
knowledge graph
Linked Open Data(LOD)
semantic graph summarization(sgs)
Formal Concept Analysis(FCA)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-