针对拥挤场景下的尺度变化导致人群计数任务中精度较低的问题,提出一种基于多尺度注意力网络(MANet)的密集人群计数模型。通过构建多列模型以捕获多尺度特征,促进尺度信息融合;使用双注意力模块获取上下文依赖关系,增强多尺度特征图的信...针对拥挤场景下的尺度变化导致人群计数任务中精度较低的问题,提出一种基于多尺度注意力网络(MANet)的密集人群计数模型。通过构建多列模型以捕获多尺度特征,促进尺度信息融合;使用双注意力模块获取上下文依赖关系,增强多尺度特征图的信息;采用密集连接重用多尺度特征图,生成高质量的密度图,之后对密度图积分得到计数。此外,提出一种新的损失函数,直接使用点注释图进行训练,以减少由高斯滤波生成新的密度图而带来的额外的误差。在公开人群数据集ShanghaiTech Part A/B、UCF-CC-50、UCF-QNRF上的实验结果均达到了最优,表明该网络可以有效处理拥挤场景下的目标多尺度,并且生成高质量的密度图。展开更多
随着信息技术的快速发展,医疗健康领域中文文本、图像等多模态数据呈现出了爆发式增长。多模态医学实体识别(Multi-modal medical entity recognition,MMER)是多模态信息抽取的关键环节,近期受到了极大关注。针对多模态医学实体识别任...随着信息技术的快速发展,医疗健康领域中文文本、图像等多模态数据呈现出了爆发式增长。多模态医学实体识别(Multi-modal medical entity recognition,MMER)是多模态信息抽取的关键环节,近期受到了极大关注。针对多模态医学实体识别任务中存在图像细节信息损失和文本语义理解不足问题,提出一种基于多尺度注意力和图神经网络(Multi-scale attention and dependency parsing graph convolution,MADPG)的MMER模型。该模型一方面基于ResNet引入多尺度注意力机制,协同提取不同空间尺度融合的视觉特征,减少医学图像重要细节信息丢失,进而增强图像特征表示,补充文本语义信息;另一方面利用依存句法结构构建图神经网络,捕捉医学文本中词汇间复杂语法依赖关系,以丰富文本语义表达,促进图像文本特征深层次融合。实验表明,本文提出的模型在多模态中文医学数据集上F_(1)值达到95.12%,相较于主流的单模态和多模态实体识别模型性能得到了明显提升。展开更多
文摘针对拥挤场景下的尺度变化导致人群计数任务中精度较低的问题,提出一种基于多尺度注意力网络(MANet)的密集人群计数模型。通过构建多列模型以捕获多尺度特征,促进尺度信息融合;使用双注意力模块获取上下文依赖关系,增强多尺度特征图的信息;采用密集连接重用多尺度特征图,生成高质量的密度图,之后对密度图积分得到计数。此外,提出一种新的损失函数,直接使用点注释图进行训练,以减少由高斯滤波生成新的密度图而带来的额外的误差。在公开人群数据集ShanghaiTech Part A/B、UCF-CC-50、UCF-QNRF上的实验结果均达到了最优,表明该网络可以有效处理拥挤场景下的目标多尺度,并且生成高质量的密度图。
文摘随着信息技术的快速发展,医疗健康领域中文文本、图像等多模态数据呈现出了爆发式增长。多模态医学实体识别(Multi-modal medical entity recognition,MMER)是多模态信息抽取的关键环节,近期受到了极大关注。针对多模态医学实体识别任务中存在图像细节信息损失和文本语义理解不足问题,提出一种基于多尺度注意力和图神经网络(Multi-scale attention and dependency parsing graph convolution,MADPG)的MMER模型。该模型一方面基于ResNet引入多尺度注意力机制,协同提取不同空间尺度融合的视觉特征,减少医学图像重要细节信息丢失,进而增强图像特征表示,补充文本语义信息;另一方面利用依存句法结构构建图神经网络,捕捉医学文本中词汇间复杂语法依赖关系,以丰富文本语义表达,促进图像文本特征深层次融合。实验表明,本文提出的模型在多模态中文医学数据集上F_(1)值达到95.12%,相较于主流的单模态和多模态实体识别模型性能得到了明显提升。