融合卷积与多头注意力的人体姿态迁移模型被引量：3

Human pose transfer model combining convolution and multi-head attention

在线阅读下载PDF

导出

摘要对于给定某个人物的参考图像,人体姿态迁移(HPT)的目标是生成任意姿态下的该人物图像。许多现有的相关方法在捕捉人物外观细节、推测不可见区域方面仍存在不足,特别是对于复杂的姿态变换,难以生成清晰逼真的人物外观。为了解决以上问题,提出一种新颖的融合卷积与多头注意力的HPT模型。首先,融合卷积与多头注意力机制构建卷积-多头注意力(Conv-MHA)模块,提取丰富的上下文特征;其次,利用Conv-MHA模块构建HPT网络,提升所提模型的学习能力;最后,引入参考图像的自我重建作为辅助任务,更充分地发挥所提模型的性能。在DeepFashion和Market-1501数据集上验证了基于Conv-MHA的HPT模型,结果显示:它在DeepFashion测试集上的结构相似性(SSIM)、感知相似度(LPIPS)和FID(Fréchet Inception Distance)指标均优于现有的HPT模型DPTN(Dualtask Pose Transformer Network)。实验结果表明,融合卷积与多头注意力机制的Conv-MHA模块可以提升模型的表示能力,更加有效地捕捉人物外观细节,提升人物图像生成的精度。 For a given reference image of a person,the goal of Human Pose Transfer(HPT)is to generate an image of that person in any arbitrary pose.Many existing related methods fail to capture the details of a person’s appearance and have difficulties in predicting invisible regions,especially for complex pose transformation,and it is difficult to generate a clear and realistic person’s appearance.To address the above problems,a new HPT model that integrated convolution and multihead attention was proposed.Firstly,the Convolution-Multi-Head Attention(Conv-MHA)block was constructed by fusing the convolution and multi-head attention,then it was used to extract rich contextual features.Secondly,to improve the learning ability of the proposed model,the HPT network was constructed by using Conv-MHA block.Finally,the selfreconstruction of the reference image was introduced as an auxiliary task to make the model more fully utilized its performance.The Conv-MHA-based human pose transfer model was validated on DeepFashion and Market-1501 datasets,and the results on DeepFashion test dataset show that it outperforms the state-of-the-art human pose transfer model,DPTN(Dual-task Pose Transformer Network),in terms of Structural SIMilarity(SSIM),Learned Perceptual Image Patch Similarity(LPIPS)and FID(Fréchet Inception Distance)indicators.Experimental results show that the Conv-MHA module,which integrates convolution and multi-head attention mechanism,can improve the representation ability of the model,capture the details of person’s appearance more effectively,and improve the accuracy of person image generation.

作者杨红张贺靳少宁 YANG Hong;ZHANG He;JIN Shaoning(Information Science and Technology College,Dalian Maritime University,Dalian Liaoning 116026,China)

机构地区大连海事大学信息科学技术学院

出处《计算机应用》 CSCD 北大核心 2023年第11期3403-3410,共8页 journal of Computer Applications

关键词人体姿态迁移图像生成生成对抗网络多头注意力卷积 Human Pose Transfer(HPT) image generation generative adversarial network multi-head attention convolution

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

作者简介通信作者:杨红(1977-),女,辽宁葫芦岛人,副教授,博士,主要研究方向:数据挖掘、行为识别,电子邮箱yanghong@dlmu.edu.cn;张贺(1998-),男,山东临沂人,硕士研究生,主要研究方向:图像生成、深度生成模型;靳少宁(1996-),女,甘肃静宁人,硕士研究生,主要研究方向:步态识别、人工智能。

引文网络
相关文献

同被引文献35

1王伟武,汪琴,林晖,龚迪嘉,张圣武.中国城市内涝研究综述及展望[J].城市问题,2015(10):24-28. 被引量：71
2陆继翔,张琪培,杨志宏,涂孟夫,陆进军,彭晖.基于CNN-LSTM混合神经网络模型的短期负荷预测方法[J].电力系统自动化,2019,43(8):131-137. 被引量：379
3肖勇,赵云,涂治东,钱斌,常润勉.基于改进的皮尔逊相关系数的低压配电网拓扑结构校验方法[J].电力系统保护与控制,2019,47(11):37-43. 被引量：131
4赵兵,王增平,纪维佳,高欣,李晓兵.基于注意力机制的CNN-GRU短期电力负荷预测方法[J].电网技术,2019,43(12):4370-4376. 被引量：204
5徐冰冰,岑科廷,黄俊杰,沈华伟,程学旗.图卷积神经网络综述[J].计算机学报,2020,43(5):755-780. 被引量：310
6臧文斌,赵雪,李敏,薛轩柱.城市洪涝模拟技术研究进展及发展趋势[J].中国防汛抗旱,2020,30(11):1-13. 被引量：34
7侯精明,康永德,李轩,陈光照,罗慧,白光弼,毕旭,高徐军,孔祥建.西安市暴雨致涝成因分析及对策[J].西安理工大学学报,2020,36(3):269-274. 被引量：26
8刘颖,雷研博,范九伦,王富平,公衍超,田奇.基于小样本学习的图像分类技术综述[J].自动化学报,2021,47(2):297-315. 被引量：98
9王健宗,孔令炜,黄章成,肖京.图神经网络综述[J].计算机工程,2021,47(4):1-12. 被引量：30
10周小力,李云,王国胤,张毅.CNLSTM模型预测城市积水[J].重庆邮电大学学报（自然科学版）,2021,33(4):529-535. 被引量：5

引证文献3

1胡昊,孙爽,马鑫,李擎,徐鹏.基于图注意力网络的城市内涝积水预测与研究[J].人民黄河,2024,46(4):43-48. 被引量：2
2高海燕,丁惠君.基于改进双分支视觉Transformer的艺术绘画分类[J].贵阳学院学报（自然科学版）,2024,19(3):98-103.
3王鹏博,刘菡.基于条件GAN的人体复杂动作轮廓智能捕捉研究[J].现代电子技术,2024,47(24):172-176. 被引量：1

二级引证文献3

1陈泽明,方序鸿,李家叶,汪孟尧,陈爱芳,尹玲.机器学习模型在城市内涝模拟预报中的应用综述[J].人民珠江,2025,46(1):9-22.
2贾军营,吴兴宇,杨海波.基于改进DeepLabv3+的道路积水检测[J].计算机系统应用,2025,34(4):175-183.
3丁宸聪.基于CNN的机载综合射频系统健康状态评估方法[J].电讯技术,2025,65(6):921-929.

1范沈伟,李国平,王国中.基于SMPL的人物视频生成算法[J].智能计算机与应用,2023,13(7):71-75.
2任雅楠.高校教师绩效管理模式优化路径探析——基于HPT模型的思考[J].中国人事科学,2022(5):14-23.
3王钧谕,高勇.基于CNN和Transformer的双路径语音分离[J].通信技术,2023,56(5):585-589.
4王巍,赵宽,杨耀权,翟永杰.基于CSwin的航拍光伏组件红外图像热斑检测方法[J].太阳能学报,2023,44(10):142-147. 被引量：5
5倪锦园,张建勋.多尺度坐标注意力金字塔卷积的面部表情识别[J].计算机工程与应用,2023,59(22):242-250. 被引量：3
6王玲,张旗,冯天赐,王一博,李雨桐,陈度.基于YOLO v7-ST模型的小麦籽粒计数方法研究[J].农业机械学报,2023,54(10):188-197. 被引量：1
7卢元杰,赵昌葆.基于SysML的钣金零件制造知识建模方法[J].制造业自动化,2023,45(11):1-5. 被引量：1
8廖春林,张宏军,廖湘琳,程恺,李大硕,王航.开源自然语言处理工具综述[J].计算机工程与应用,2023,59(22):36-56. 被引量：5
9彭纪有,郭兵,王士辉,聂华海,孟变变,赵清亮,赵欢.机器人轮带磨削的重力补偿设计及加工工艺(特邀)[J].红外与激光工程,2023,52(9):1-12.
10付碧波,李海兵,罗建刚,郭子伟,王友东.拖曳式海洋地磁三分量测量系统的设计与试验[J].海洋测绘,2023,43(4):15-18. 被引量：1

计算机应用

2023年第11期

浏览历史

内容加载中请稍等...

融合卷积与多头注意力的人体姿态迁移模型被引量：3

同被引文献35

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

融合卷积与多头注意力的人体姿态迁移模型 被引量：3

同被引文献35

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

融合卷积与多头注意力的人体姿态迁移模型被引量：3