题名 基于显著性特征提取的图像描述算法
被引量:5
1
作者
王鑫
宋永红
张元林
机构
西安交通大学软件学院
西安交通大学人工智能学院
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2022年第3期735-746,共12页
基金
陕西省自然科学基础研究计划(2018JM6104)
国家重点研究开发项目(2017YFB1301101)资助。
文摘
图像描述(Image captioning)是一个融合了计算机视觉和自然语言处理这两个领域的研究方向,本文为图像描述设计了一种新颖的显著性特征提取机制(Salient feature extraction mechanism,SFEM),能够在语言模型预测每一个单词之前快速地向语言模型提供最有价值的视觉特征来指导单词预测,有效解决了现有方法对视觉特征选择不准确以及时间性能不理想的问题.SFEM包含全局显著性特征提取器和即时显著性特征提取器这两个部分:全局显著性特征提取器能够从多个局部视觉向量中提取出显著性视觉特征,并整合这些特征到全局显著性视觉向量中;即时显著性特征提取器能够根据语言模型的需要,从全局显著性视觉向量中提取出预测每一个单词所需的显著性视觉特征.本文在MS COCO(Microsoft common objects in context)数据集上对SFEM进行了评估,实验结果表明SFEM能够显著提升基准模型(baseline)生成图像描述的准确性,并且SFEM在生成图像描述的准确性方面明显优于广泛使用的空间注意力模型,在时间性能上也大幅领先空间注意力模型.
关键词
图像描述
显著性特征提取
语言模型
编码器
解码器
Keywords
Image captioning
salient feature extract
language model
encoder
decoder
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 基于N-RGAN模型的红外与可见光图像融合
2
作者
沈瑜
梁丽
王海龙
严源
刘广辉
宋婧
机构
兰州交通大学电子与信息工程学院
出处
《红外技术》
CSCD
北大核心
2023年第9期897-906,共10页
基金
国家自然科学基金项目(61861025)
2021年陇原青年创新创业人才(团队)项目
+3 种基金
甘肃省高等学校青年博士基金项目(2021QB-49)
甘肃省高校大学生就业创业能力提升工程项目(2021-35)
智能化隧道监理机器人研究项目(中铁科研院(科研)字2020-KJ016-Z016-A2)
四电BIM工程与智能应用铁路行业重点实验室2021年度开放课题(BIMKF-2021-04)。
文摘
目前,红外与可见光图像融合算法依然存在着对复杂场景适用性低、融合图像细节纹理信息大量丢失、对比度与清晰度不高等问题,针对上述存在的问题,本文结合非下采样剪切波变换(Non-Subsampled Shearlet Transform,NSST)、残差网络(Residual Network,ResNet)与生成对抗网络(Generative Adversarial Network,GAN)提出一种N-RGAN模型。通过NSST变换将红外与可见光图像分解为高频子带和低频子带;对高频子带进行拼接并输入由残差模块改进过的生成器,并将源红外图像作为判决标准,以此提升网络融合性能与融合图像细节刻画以及目标凸显能力;对红外图像与可见光图像进行显著性特征提取,通过自适应加权对低频子带进行融合,提升图像对比度与清晰度;对高频子带的融合结果与低频子带的融合结果进行NSST逆变换,从而得到红外与可见光图像的融合结果。通过与各类算法的融合结果进行对比,本文所提方法在峰值信噪比(Peak Signal to Noise Ratio,PSNR)、平均梯度(Average Gradient,AVG)、图像熵(Image Entropy,IE)、空间频率(Spatial Frequency,SF)、边缘强度(Edge Strength,ES)、图像清晰度(Image Clarity,IC)等多个客观指标上均有提高,可提升复杂场景下的红外与可见光图像融合效果,改善图像细节纹理信息损失严重的问题,同时提升图像对比度与清晰度。
关键词
图像融合
红外与可见光图像
显著性特征提取
非下采样剪切波变换
残差网络
生成对抗网络
Keywords
image fusion
infrared and visible images
salient feature extraction
non-subsampled shearlet transform
residual network
generative adversarial network
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TN219
[电子电信—物理电子学]