随着信息技术的快速发展,医疗健康领域中文文本、图像等多模态数据呈现出了爆发式增长。多模态医学实体识别(Multi-modal medical entity recognition,MMER)是多模态信息抽取的关键环节,近期受到了极大关注。针对多模态医学实体识别任...随着信息技术的快速发展,医疗健康领域中文文本、图像等多模态数据呈现出了爆发式增长。多模态医学实体识别(Multi-modal medical entity recognition,MMER)是多模态信息抽取的关键环节,近期受到了极大关注。针对多模态医学实体识别任务中存在图像细节信息损失和文本语义理解不足问题,提出一种基于多尺度注意力和图神经网络(Multi-scale attention and dependency parsing graph convolution,MADPG)的MMER模型。该模型一方面基于ResNet引入多尺度注意力机制,协同提取不同空间尺度融合的视觉特征,减少医学图像重要细节信息丢失,进而增强图像特征表示,补充文本语义信息;另一方面利用依存句法结构构建图神经网络,捕捉医学文本中词汇间复杂语法依赖关系,以丰富文本语义表达,促进图像文本特征深层次融合。实验表明,本文提出的模型在多模态中文医学数据集上F_(1)值达到95.12%,相较于主流的单模态和多模态实体识别模型性能得到了明显提升。展开更多
针对商品包装文本检测任务中弯曲密集型文本导致的错检、漏检问题,提出了一种由2个子网络组成的基于链接关系预测的文本检测框架(text detection network based on relational prediction,RPTNet)。在文本组件检测网络中,下采样采用卷...针对商品包装文本检测任务中弯曲密集型文本导致的错检、漏检问题,提出了一种由2个子网络组成的基于链接关系预测的文本检测框架(text detection network based on relational prediction,RPTNet)。在文本组件检测网络中,下采样采用卷积神经网络和自注意力并行的双分支结构提取局部和全局特征,并加入空洞特征增强模块(DFM)减少深层特征图在降维过程中信息的丢失;上采样采用特征金字塔与多级注意力融合模块(MAFM)相结合的方式进行多级特征融合以增强文本特征间的潜在联系,通过文本检测器从上采样输出的特征图中检测文本组件;在链接关系预测网络中,采用基于图卷积网络的关系推理框架预测文本组件间的深层相似度,采用双向长短时记忆网络将文本组件聚合为文本实例。为验证RRNet的检测性能,构建了一个由商品包装图片组成的文本检测数据集(text detection dataset composed of commodity packaging,CPTD1500)。实验结果表明:RPTNet不仅在公开文本数据集CTW-1500和Total-Text上取得了优异的性能,而且在CPTD1500数据集上的召回率和F值分别达到了85.4%和87.5%,均优于当前主流算法。展开更多
针对现有多维时间序列数据(multivariate time series,MTS)预测中变量间依赖关系捕获能力不足和时间序列数据多通道信息利用不充分的问题,提出一种融合双注意力机制的多维时间序列预测模型(feature fusion and dual attention mechanism...针对现有多维时间序列数据(multivariate time series,MTS)预测中变量间依赖关系捕获能力不足和时间序列数据多通道信息利用不充分的问题,提出一种融合双注意力机制的多维时间序列预测模型(feature fusion and dual attention mechanism based GNN,FFDA-GNN)。该模型将图神经网络与空间注意力机制融合,用于增强多变量之间依赖关系捕获能力;利用并行的多层膨胀卷积和通道注意力机制,对时间序列数据进行多通道的特征提取,实现对时间序列数据多通道信息的充分利用,从而提升预测性能。在经济、电力、交通3个领域数据集上与基准模型进行对比实验,该模型预测精度优于其他基准方法,有良好的可行性。展开更多
文摘随着信息技术的快速发展,医疗健康领域中文文本、图像等多模态数据呈现出了爆发式增长。多模态医学实体识别(Multi-modal medical entity recognition,MMER)是多模态信息抽取的关键环节,近期受到了极大关注。针对多模态医学实体识别任务中存在图像细节信息损失和文本语义理解不足问题,提出一种基于多尺度注意力和图神经网络(Multi-scale attention and dependency parsing graph convolution,MADPG)的MMER模型。该模型一方面基于ResNet引入多尺度注意力机制,协同提取不同空间尺度融合的视觉特征,减少医学图像重要细节信息丢失,进而增强图像特征表示,补充文本语义信息;另一方面利用依存句法结构构建图神经网络,捕捉医学文本中词汇间复杂语法依赖关系,以丰富文本语义表达,促进图像文本特征深层次融合。实验表明,本文提出的模型在多模态中文医学数据集上F_(1)值达到95.12%,相较于主流的单模态和多模态实体识别模型性能得到了明显提升。
文摘针对商品包装文本检测任务中弯曲密集型文本导致的错检、漏检问题,提出了一种由2个子网络组成的基于链接关系预测的文本检测框架(text detection network based on relational prediction,RPTNet)。在文本组件检测网络中,下采样采用卷积神经网络和自注意力并行的双分支结构提取局部和全局特征,并加入空洞特征增强模块(DFM)减少深层特征图在降维过程中信息的丢失;上采样采用特征金字塔与多级注意力融合模块(MAFM)相结合的方式进行多级特征融合以增强文本特征间的潜在联系,通过文本检测器从上采样输出的特征图中检测文本组件;在链接关系预测网络中,采用基于图卷积网络的关系推理框架预测文本组件间的深层相似度,采用双向长短时记忆网络将文本组件聚合为文本实例。为验证RRNet的检测性能,构建了一个由商品包装图片组成的文本检测数据集(text detection dataset composed of commodity packaging,CPTD1500)。实验结果表明:RPTNet不仅在公开文本数据集CTW-1500和Total-Text上取得了优异的性能,而且在CPTD1500数据集上的召回率和F值分别达到了85.4%和87.5%,均优于当前主流算法。
文摘针对现有多维时间序列数据(multivariate time series,MTS)预测中变量间依赖关系捕获能力不足和时间序列数据多通道信息利用不充分的问题,提出一种融合双注意力机制的多维时间序列预测模型(feature fusion and dual attention mechanism based GNN,FFDA-GNN)。该模型将图神经网络与空间注意力机制融合,用于增强多变量之间依赖关系捕获能力;利用并行的多层膨胀卷积和通道注意力机制,对时间序列数据进行多通道的特征提取,实现对时间序列数据多通道信息的充分利用,从而提升预测性能。在经济、电力、交通3个领域数据集上与基准模型进行对比实验,该模型预测精度优于其他基准方法,有良好的可行性。