-
题名基于实体信息增强及多粒度融合的多文档摘要
被引量:1
- 1
-
-
作者
唐嘉蕊
刘美玲
赵铁军
周继云
-
机构
东北林业大学计算机与控制工程学院
哈尔滨工业大学计算机科学系
约翰斯·霍普金斯大学利伯研究所
-
出处
《中文信息学报》
CSCD
北大核心
2023年第7期42-50,共9页
-
基金
国家自然科学基金(61702091)
黑龙江省自然科学基金(LH2022F002)。
-
文摘
研究发现对大规模的数据进行预训练可以更好地从自然语言文本中捕捉更丰富的语义信息,目前很多的多文档摘要的工作也应用了预训练模型并取得了一定的效果。但是这些预训练模型没有考虑到结构化的实体-关系信息。不能更好地从文本中捕获事实性知识。该文提出了基于实体信息增强和多粒度融合的多文档摘要模型MGNIE,该方法将实体关系信息融入预训练模型ERNIE中,增强知识事实以获得多层语义信息,解决摘要生成的事实一致性问题,进而从多种粒度进行多文档层次结构的融合建模,以词信息、实体信息以及句子信息捕捉长文本信息摘要生成所需的关键信息点。该文设计的模型在国际标准评测数据集MultiNews上的实验证明,所提模型对比强基线模型效果和竞争力获得较大提升。
-
关键词
实体信息增强
预训练语言模型
多粒度融合
-
Keywords
entity information augmentation
pre-trained language models
multi-granularity fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于功效特征的专利聚类方法
被引量:2
- 2
-
-
作者
马建红
曹文斌
刘元刚
夏爽
-
机构
河北工业大学人工智能与数据科学学院
天津市科学技术协会
天津科学技术馆
-
出处
《计算机应用》
CSCD
北大核心
2021年第5期1361-1366,共6页
-
基金
科技部创新方法工作专项(2019IM020300)。
-
文摘
当前专利是按照领域划分的,而基于功效特征可以实现跨领域的专利聚类,这在企业创新设计中具有重要意义,而精确提取专利功效特征和快速获得最优聚类结果是其中的关键任务。为此提出一种信息实体语义增强表示(ERNIE)和卷积神经网络(CNN)相结合的功效特征联合提取(FEI-Joint)模型来提取专利文献的功效特征,并且改进自组织神经网络(SOM)算法,从而提出具有早期拒绝策略与类合并思想的自组织神经网络(ERCM-SOM)来实现基于功效特征的专利聚类。对FEI-Joint模型与TF-IDF、狄利克雷分布(LDA)、CNN在特征提取后的聚类效果上进行比较和分析,结果表明其F-measure值比其他模型有明显提高。ERCM-SOM算法与K-Means算法、SOM算法相比,在Fmeasure值提高的同时,其时间较SOM算法有明显缩短。对比使用专利分类号(IPC)的专利分类,采用基于功效特征的聚类方法可实现跨领域的专利聚类效果,为设计者借鉴其他领域的设计方法奠定了基础。
-
关键词
专利聚类
信息实体语义增强表示
卷积神经网络
跨领域
自组织神经网络
-
Keywords
patent clustering
Enhanced Language Representation with Informative Entities(ERNIE)
Convolutional Neural Network(CNN)
cross-domain
Self-Organizing Map(SOM)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-