-
题名融合多模态信息的产品摘要抽取模型
- 1
-
-
作者
赵强
王中卿
王红玲
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机应用》
CSCD
北大核心
2024年第1期73-78,共6页
-
基金
国家自然科学基金资助项目(61976146)。
-
文摘
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义。针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型。与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富。具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要。在CEPSUM(Chinese E-commerce Product SUMmarization)2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,比BERTSUMExt(BERT SUMmarization Extractive)高1.75个百分点。实验结果表明,该模型融合产品文本和图像信息对于产品摘要是有效的,在ROUGE评价指标上表现良好。
-
关键词
产品摘要
多模态摘要
抽取式摘要
多模态融合
自动文摘
-
Keywords
product summarization
multimodal summarization
extraction summarization
multimodal fusion
automatic summarization
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于正反上下文语义对齐融合的多模态文本摘要模型
- 2
-
-
作者
陈中峰
陆振宇
荣欢
-
机构
南京信息工程大学人工智能学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第4期108-119,共12页
-
基金
国家自然科学基金(U20B2061,62102187)
江苏省自然科学基金(基础研究计划)(BK20210639)。
-
文摘
该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容,分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息,使用反向滤波器过滤反向注意力机制中的相关信息,达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络,使用正相关信息搭建正向指针、使用不相关信息搭建反向指针,生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上,所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。
-
关键词
多模态文本摘要
多模态信息对齐
二级门控编码机制
文本生成模型
-
Keywords
multi-modal text summarization
multi-modal alignment
secondary gated encoding
text-generation model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-