期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
结合全局上下文信息的高效人体姿态估计 被引量:2
1
作者 刘豪 吴红兰 房宇轩 《计算机工程》 CAS CSCD 北大核心 2023年第7期102-109,117,共9页
现有的人体姿态估计模型通常使用复杂的网络结构提升关键点检测准确率,忽视了模型参数量和复杂度,使得模型难以部署在资源受限的计算设备上。针对这一问题,构建一个感知全局上下文信息的轻量级人体姿态估计网络模型(GCEHNet)。对HRNet... 现有的人体姿态估计模型通常使用复杂的网络结构提升关键点检测准确率,忽视了模型参数量和复杂度,使得模型难以部署在资源受限的计算设备上。针对这一问题,构建一个感知全局上下文信息的轻量级人体姿态估计网络模型(GCEHNet)。对HRNet进行轻量化改进,使用深度卷积模块代替HRNet结构中的标准3×3残差卷积模块,在保证网络性能的同时大幅度降低模型参数量与复杂度。为了克服卷积神经网络(CNN)在长期语义依赖性建模方面的局限性,使用双支路方法联合CNN与Transformer,将全局位置信息嵌入CNN后期模块,使GCEHNet模型能感知上下文特征信息,从而提升网络性能。设计一种CNN特征与全局位置特征高效融合的策略,通过学习联合特征信息重新分配特征权重,捕获并增强来自不同感受野的特征信息。实验结果表明,GCEHNet模型在MS COCO val2017和test-dev2017数据集上的检测准确率分别达到71.6%和71.3%,相比于HRNet模型,在检测准确率仅损失4.5%的条件下参数量降低了76.4%,在检测准确率和模型复杂度间取得了较好的平衡。 展开更多
关键词 人机交互 人体姿态估计 自注意力机制 全局上下文信息 特征融合
在线阅读 下载PDF
基于SE注意力机制与互信息量的解纠缠跨语种语音转换
2
作者 李燕萍 谭誌诚 +2 位作者 胡澄阳 杨露露 邵曦 《信号处理》 北大核心 2025年第1期183-192,共10页
在跨语种语音转换(Cross-Lingual Voice Conversion, CLVC)任务中,如何保留转换语音中的内容信息,同时有效地提高转换语音的相似度和自然度是目前的研究难题。传统的编码器-解码器模型应用于跨语种语音转换时,通常会对语音进行相互独立... 在跨语种语音转换(Cross-Lingual Voice Conversion, CLVC)任务中,如何保留转换语音中的内容信息,同时有效地提高转换语音的相似度和自然度是目前的研究难题。传统的编码器-解码器模型应用于跨语种语音转换时,通常会对语音进行相互独立的内容编码和说话人编码,导致得到的内容表征和说话人表征之间存在一定的信息泄露,从而使得转换语音的说话人个性相似度不够理想。为了解决上述存在的问题,本文提出一种基于SE注意力机制(Squeeze-and-Excitation Attention Mechanism, SE)与互信息量(Mutual Information, MI)的跨语种语音转换方法,实现有效的表征解纠缠,完成开集情形下高质量的跨语种语音转换。首先,在内容编码器中引入SE注意力机制以利用其对全局信息的提取能力,使得内容编码器可以提取包含全局上下文信息的内容表征;同时,在各个表征之间引入互信息量,并通过对其最小化来大幅减少各个表征之间存在的信息泄露问题,从而实现有效的表征解纠缠。在VCTK英文语料库和AISHELL-3中文语料库上的实验结果表明,本文提出的基于SE注意力机制与互信息量的跨语种语音转换模型(Squeeze-and-Excitation Attention Mechanism and Mutual Information, SEMI)具有更强的表征提取能力,相比于基准模型,其在客观评价中MCD值降低了10.89%,在主观评价中MOS值和ABX值分别提升了10.94%和12.06%,验证了SEMI模型在转换语音质量和说话人个性相似度方面都取得显著进展,实现了开集情形下高质量的跨语种语音转换。 展开更多
关键词 跨语种语音转换 SE注意力机制 信息 全局上下文信息
在线阅读 下载PDF
GMFNet:全局多尺度和多级别的特征融合语义分割网络
3
作者 陈金令 赵成明 李洁 《计算机应用与软件》 北大核心 2025年第4期311-318,334,共9页
语义分割网络在编码器-解码器中融合高低水平特征存在以下问题:(1)在空间和通道中特征提取无法同步,导致特征组合无法获取全局上下文信息;(2)特征融合无法充分利用高低水平特征图像,导致语义边界模糊。设计全局空洞空间金字塔池化,该结... 语义分割网络在编码器-解码器中融合高低水平特征存在以下问题:(1)在空间和通道中特征提取无法同步,导致特征组合无法获取全局上下文信息;(2)特征融合无法充分利用高低水平特征图像,导致语义边界模糊。设计全局空洞空间金字塔池化,该结构不仅在空间上提取多尺度信息和通道上对图像信息充分利用,还增强编码器阶段的特征重用。设计特征融合注意力模块,在编码器中连接不同阶段的高低水平特征和新特征。实验表明,该算法在Cityscapes数据集上达到了77.92%mIoU。 展开更多
关键词 语义分割 卷积神经网络 全局上下文信息 特征融合 编码器-解码器
在线阅读 下载PDF
全局上下文引导的双代价聚合立体匹配网络
4
作者 方伟舟 孟小艳 +1 位作者 周洪 丁晓晨 《现代电子技术》 2025年第17期104-111,共8页
针对目前立体匹配算法在无纹理、遮挡区域和边缘模糊区域存在的问题,提出一种全局上下文引导的双代价聚合立体匹配网络——GCDANet。首先,在特征提取部分利用引导全局上下文特征的注意力模块捕获特征的细节与丰富的全局上下文信息,提高... 针对目前立体匹配算法在无纹理、遮挡区域和边缘模糊区域存在的问题,提出一种全局上下文引导的双代价聚合立体匹配网络——GCDANet。首先,在特征提取部分利用引导全局上下文特征的注意力模块捕获特征的细节与丰富的全局上下文信息,提高特征的表达能力和鲁棒性;其次,构建组相关代价体和拼接代价体,每个代价体单独处理;然后,提出一个双分支代价聚合结构,通过设计的多尺度注意力特征融合模块,融合代价聚合网络上下分支的特征以及特征提取模块中的多尺度特征,从而获得准确和高分辨率的几何信息;最后,通过视差回归以获得视差图。实验结果表明,GCDANet在多个数据集上的性能优于基准模型(GWCNet)。在SceneFlow数据集中的评价指标EPE和D_(1)降至0.60 pixel和2.08%,在KITTI2012数据集中的评价指标3 pixel-All和3 pixel-Noc降至1.61%和1.29%。在KITTI2015数据集测试的评价指标中,所有像素区域的D_(1)-All降至1.94%。所提网络在处理复杂场景时具有较强的适应性和精确性,在自动驾驶、目标检测和三维重建等需要精确立体匹配领域有着广泛的应用前景。 展开更多
关键词 立体匹配 特征提取 全局上下文信息 代价体 双分支代价聚合 多尺度特征 特征融合 视差回归
在线阅读 下载PDF
基于Transformer的多尺度遥感语义分割网络 被引量:4
5
作者 邵凯 王明政 王光宇 《智能系统学报》 CSCD 北大核心 2024年第4期920-929,共10页
为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器... 为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器和解码器2个部分组成,编码器包含基于Transformer改进的视觉注意网络(visual attention network,VAN)主干和基于空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)结构改进的多尺度语义特征提取模块(multi-scale semantic feature extraction module, MSFEM)。解码器采用轻量级多层感知器(multi-layer perception,MLP)配合编码器设计,充分分析所提取的包含全局上下文信息和多尺度表示的语义特征。MSTNet在2个高分辨率遥感语义分割数据集ISPRS Potsdam和LoveDA上进行验证,平均交并比(mIoU)分别达到79.50%和54.12%,平均F1-score(m F1)分别达到87.46%和69.34%,实验结果验证了本文所提方法有效提升了遥感图像语义分割的效果。 展开更多
关键词 遥感图像 语义分割 卷积神经网络 TRANSFORMER 全局上下文信息 多尺度感受野 编码器 解码器
在线阅读 下载PDF
基于深度迁移学习的图像隐私目标检测研究 被引量:6
6
作者 王大阜 王静 +2 位作者 石宇凯 邓志文 贾志勇 《图学学报》 CSCD 北大核心 2023年第6期1112-1120,共9页
针对当前社交媒体平台缺乏图像隐私泄露预警机制的问题,提出基于YOLOv8模型的图像隐私目标检测优化方案,以降低用户分享图像时泄露隐私的风险。以YOLOv8作为基线模型,将瓶颈转换器(BoT)模块融入主干网络,以捕获全局上下文信息,建模长距... 针对当前社交媒体平台缺乏图像隐私泄露预警机制的问题,提出基于YOLOv8模型的图像隐私目标检测优化方案,以降低用户分享图像时泄露隐私的风险。以YOLOv8作为基线模型,将瓶颈转换器(BoT)模块融入主干网络,以捕获全局上下文信息,建模长距离依赖关系。同时引入加权双向特征金字塔网络(BIFPN)结构改进颈部网络,促进多尺度特征的深度融合。在此基础上,基于深度迁移学习方法,对YOLOv8预训练模型进行微调并训练,以实现图像隐私的自动化检测。通过LabelImg标注工具构建隐私图像数据集,在迁移学习方式下,将常见的YOLO系列模型与改进的YOLOv8相比较。结果表明:YOLOv8在基线模型中的表现较好,而本文改进模型的F1值达到0.885,mAP@.5值达到0.927,相较于YOLOv8分别提升了4.0%和3.4%,其检测精度效果显著,能够应对图像隐私检测的应用场景。 展开更多
关键词 图像隐私 目标检测 YOLOv8 全局上下文信息 迁移学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部