期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于多级视觉与图文动态交互的图像中文描述方法
1
作者 张军燕 赵一鸣 +1 位作者 林兵 吴允平 《计算机应用》 北大核心 2025年第5期1520-1527,共8页
图像文字描述技术可以帮助计算机更好地理解图像内容,实现跨模态交互。针对图像中文描述任务中存在的图像多粒度特征提取不全面以及图文关联性理解不充分等问题,提出一种基于多级视觉与图文动态交互的图像中文描述方法。首先,在编码器... 图像文字描述技术可以帮助计算机更好地理解图像内容,实现跨模态交互。针对图像中文描述任务中存在的图像多粒度特征提取不全面以及图文关联性理解不充分等问题,提出一种基于多级视觉与图文动态交互的图像中文描述方法。首先,在编码器端提取多级视觉特征,通过图像局部特征提取器的辅助引导模块获取多粒度特征。其次,设计图文交互模块对图文信息的语义关联进行动态关注;同时,设计特征动态融合解码器将带有图文信息动态权重的特征经过闭环动态融合并关注与解码,以保证信息增强且无缺失,从而获得语义关联性的输出。最后,生成语义通顺的图像中文描述语句。使用BLEU-n、Rouge、Meteor、CIDEr指标评估方法的有效性并与8种不同方法进行对比。实验结果显示,所提方法的语义相关性评价指标均有提升。具体而言,与基线模型NIC(Neural Image Caption)相比,所提方法在BLEU-1、BLEU-2、BLEU-3、BLEU-4、Rouge_L、Meteor、CIDEr分别提升了5.62%、7.25%、8.78%、10.85%、14.06%、5.14%、15.16%,表明该方法具有较好的准确性。 展开更多
关键词 图像中文描述 图像多级视觉特征 多粒度 图文交互 动态融合
在线阅读 下载PDF
融合编码器和视觉关键词搜索的图像中文描述
2
作者 孟繁聪 徐伟 +3 位作者 李海波 吴闽 郑竣杰 陈兴 《计算机应用与软件》 北大核心 2025年第4期208-216,244,共10页
针对当前已有模型缺乏对图像局部细节的关注以及趋向于通用型描述问题,提出一种采用融合编码器和视觉关键词搜索技术的图像中文描述方法。构建融合编码器,在一个卷积神经网络(CNN)中同时提取图像的局部和全局特征,丰富长短时记忆网络(LS... 针对当前已有模型缺乏对图像局部细节的关注以及趋向于通用型描述问题,提出一种采用融合编码器和视觉关键词搜索技术的图像中文描述方法。构建融合编码器,在一个卷积神经网络(CNN)中同时提取图像的局部和全局特征,丰富长短时记忆网络(LSTM)解码的语义信息;针对图像描述一般性表达,采用基于CNN的图像检索方法查找潜在视觉词汇,用于词向量解码;引入强化学习机制,在CIDEr评估指标上做句子层面上的优化,用以提高图像描述的词汇多样性。实验结果验证了所提方法的有效性。 展开更多
关键词 图像中文描述 编解码结构 注意力机制 图像检索 强化学习
在线阅读 下载PDF
基于视觉-语义中间综合属性特征的图像中文描述生成算法 被引量:5
3
作者 肖雨寒 江爱文 +1 位作者 王明文 揭安全 《中文信息学报》 CSCD 北大核心 2021年第4期129-138,共10页
图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务... 图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取决于语言模型。针对以上两个方面的研究不足,该文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法结合目标检测和注意力机制,充分考虑了图像高层视觉语义所对应的中文属性信息,抽取不同尺度和层次的属性上下文表示。为了验证该文算法的有效性,在目前规模最大的AI Challenger 2017图像中文描述数据集以及Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法能够有效地实现视觉-语义关联,生成文字表述较为准确、内容丰富的描述语句。较现阶段主流图像描述算法在中文语句上的性能表现,该文算法在各项评价指标上均有约3%~30%的较大幅度提升。为了便于后续研究复现,该文的相关源代码和模型已在开源网站Github上公开。 展开更多
关键词 图像中文描述 目标检测 注意力机制
在线阅读 下载PDF
基于Transformer的细粒度图像中文描述 被引量:3
4
作者 肖雄 徐伟峰 +2 位作者 王洪涛 苏攀 高思华 《吉林大学学报(理学版)》 CAS 北大核心 2022年第5期1103-1112,共10页
针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、缺乏细节语义信息的问题,提出一种用Transformer多头注意力(multi-head attention, MHA)网络,融合粗粒度的全局特征和细粒度的区域目标实体特征方法.该方法通过多尺度特征... 针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、缺乏细节语义信息的问题,提出一种用Transformer多头注意力(multi-head attention, MHA)网络,融合粗粒度的全局特征和细粒度的区域目标实体特征方法.该方法通过多尺度特征的融合,使图像注意力更易聚焦于细粒度的目标区域,得到更具细粒度语义特征的图像表示,从而有效改善了图像描述.在数据集ICC上使用多种评价指标进行验证,结果表明,该模型在各项指标上均取得了更好的图像描述效果. 展开更多
关键词 图像中文描述 细粒度特征 多头注意力
在线阅读 下载PDF
图像特征注意力与自适应注意力融合的图像内容中文描述 被引量:7
5
作者 赵宏 孔东一 《计算机应用》 CSCD 北大核心 2021年第9期2496-2503,共8页
针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型。模型使用编解码结构,首先在编码器网络中... 针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型。模型使用编解码结构,首先在编码器网络中提取图像特征,并通过图像特征注意力提取图像全部特征区域的注意力信息;然后使用解码器网络将带有注意力权重的图像特征解码生成隐藏信息,以保证关注信息不减弱、无缺失;最后利用自适应注意力的视觉哨兵模块对图像特征中的重点内容进行再次加强关注,从而更加精准地提取图像的主体内容。使用多种评价指标(BLEU、METEOR、ROUGEL和CIDEr)进行模型验证,将所提模型与单一基于自适应注意力和基于图像特征注意力的图像描述模型进行对比实验,该模型的CIDEr评价指标值分别提高了10.1%和7.8%;同时与基线模型NIC(Neural Image Caption)以及基于自底向上和自顶向下(BUTD)注意力的图像描述模型相比,该模型的CIDEr评价指标值分别提高了10.9%和12.1%。实验结果表明,所提模型的图像理解能力得到了有效提升,其各项评价指标得分均优于对比模型。 展开更多
关键词 图像内容中文描述 注意力机制 深度学习 卷积神经网络 循环神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部