期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于自蒸馏视觉Transformer的无监督行人重识别
1
作者 贾洁茹 杨建超 +2 位作者 张硕蕊 闫涛 陈斌 《计算机应用》 CSCD 北大核心 2024年第9期2893-2902,共10页
针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的... 针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的特性,随机选择一个中间Transformer块并将它送入分类器以得到预测结果;其次,通过最小化随机选择的中间分类器输出与最终分类器输出分布之间的Kullback-Leibler散度,约束中间块的分类预测结果与最终分类器的结果保持一致,据此构建自蒸馏损失函数;最后,通过对聚类级对比损失、实例级对比损失和自蒸馏损失进行联合最小化,对模型进行优化。此外,通过从最终分类器向中间块提供软监督,有效地给ViT模型引入归纳偏置,进而有助于模型学习更鲁棒和通用的视觉表征。与基于TransReID的自监督学习(TransReID-SSL)相比,在Market-1501数据集上,所提方法的平均精度均值(mAP)和Rank-1分别提升1.2和0.8个百分点;在MSMT17数据集上,所提方法的mAP和Rank-1分别提升3.4和3.1个百分点。实验结果表明,所提方法能够有效提高无监督行人重识别的精度。 展开更多
关键词 行人重识别 无监督学习 视觉Transformer 知识蒸馏 特征表示
在线阅读 下载PDF
结合卷积增强窗口注意力的双分支语音增强神经网络
2
作者 张晨辉 原之安 钱宇华 《计算机研究与发展》 北大核心 2025年第4期852-862,共11页
在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频... 在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频经过短时傅里叶变换(STFT)处理后,多数模型仅使用幅值信息,而忽略了相位信息,导致它们未能有效捕获语谱图特征,从而影响了语音增强的效果.基于此设计出一个带有卷积增强窗口注意力的双分支语音增强神经网络.该模型采用U-NET架构,通过双分支结构对音频的幅值和相位信息同时建模;在2个分支之间引入复值计算模块以实现信息交互;在编码器层和解码器层之间的跳跃连接部分采用卷积增强窗口注意力模块,该模块执行基于非重叠窗口的自注意力操作,在捕获局部上下文信息的同时显著降低了语音增强模型的计算复杂度.该模型在公开的Voicebank-Demand数据集上进行测试,与基线模型DCUNET 16和DCUNET20相比,在客观语音质量评估指标PESQ(perceptual evaluation of speech quality)分别提高了0.51和0.47.除了PESQ指标外,其他指标也都有显著的提升.相较于现有的各类语音增强模型,该模型在各项指标上均处于领先水平,尤其是在PESQ得分方面的提升更为显著. 展开更多
关键词 语音增强 双分支网络 语谱图特征 卷积增强窗口注意力 全局信息 局部信息
在线阅读 下载PDF
多景深图像聚焦信息的三维形貌重建:数据集与模型 被引量:2
3
作者 张江峰 闫涛 +2 位作者 王克琪 钱宇华 吴鹏 《计算机学报》 EI CAS CSCD 北大核心 2023年第8期1734-1752,共19页
受限于数据采集方式的多源异性与三维重建结果的昂贵标注,现有基于多景深图像聚焦信息的三维形貌重建方法通常需要根据具体应用场景设计,缺乏场景适应性.本文提出一种多景深图像数据集构建的理论与方法,并在此基础上设计具有良好鲁棒性... 受限于数据采集方式的多源异性与三维重建结果的昂贵标注,现有基于多景深图像聚焦信息的三维形貌重建方法通常需要根据具体应用场景设计,缺乏场景适应性.本文提出一种多景深图像数据集构建的理论与方法,并在此基础上设计具有良好鲁棒性的深度网络模型.构建的多景深图像数据集(MDFI Datasets)旨在剥离图像实际语义与深度信息的强关联性,通过联合输入图像序列的富纹理特性与三维形貌固有的同质与阶跃特性,提出形貌核函数非线性空间映射方法扩展数据集的多维性与多样性.设计的深度三维形貌重建网络模型(DSFF-Net)以U-Net为基础网络,添加可变形卷积模块(Deformable ConvNets v2)增强网络的特征提取能力,全新设计的局部-全局关系耦合模块(LGRCB)有助于提升模型全局聚焦信息的聚合能力.为验证MDFI Datasets的跨场景适用性和DSFF-Net模型的鲁棒性与泛化性,本文从四个不同方面进行实验对比分析.实验结果表明,相较于最先进的鲁棒聚焦体积正则化的聚焦形貌恢复算法(RFVR-SFF)和全聚焦深度网络(AiFDepth-Net),本文提出的DSFF-Net模型在RMSE指标上分别下降15%和29%;大景深场景实验表明,本文提出的数据集构建方法能够适应实际应用场景。 展开更多
关键词 三维形貌重建 深度学习 图像序列数据集 多聚焦图像 核函数
在线阅读 下载PDF
全局时空特征耦合的多景深三维形貌重建 被引量:1
4
作者 张江峰 闫涛 +2 位作者 陈斌 钱宇华 宋艳涛 《计算机应用》 CSCD 北大核心 2023年第3期894-902,共9页
针对现有三维形貌重建模型无法有效融合全局时空信息的问题,设计深度聚焦体积(DFV)模块保留聚焦和离焦的过渡信息,并在此基础上提出全局时空特征耦合(GSTFC)模型提取多景深图像序列的局部与全局的时空特征信息。首先,在收缩路径中穿插3D... 针对现有三维形貌重建模型无法有效融合全局时空信息的问题,设计深度聚焦体积(DFV)模块保留聚焦和离焦的过渡信息,并在此基础上提出全局时空特征耦合(GSTFC)模型提取多景深图像序列的局部与全局的时空特征信息。首先,在收缩路径中穿插3D-ConvNeXt模块和3D卷积层,捕捉多尺度局部时空特征,同时,在瓶颈模块中添加3D-SwinTransformer模块捕捉多景深图像序列局部时序特征的全局关联关系;然后,通过自适应参数层将局部时空特征和全局关联关系融合为全局时空特征,并输入扩张路径引导生成聚焦体积;最后,聚焦体积通过DFV提取序列权重信息,并保留聚焦与离焦的过渡信息,得到最终深度图。实验结果表明,GSTFC在FoD500数据集上的均方根误差(RMSE)相较于最先进的全聚焦深度网络(AiFDepthNet)下降了12.5%,并且比传统的鲁棒聚焦体积正则化的聚焦形貌恢复(RFVR-SFF)模型保留了更多的景深过渡关系。 展开更多
关键词 三维形貌重建 深度学习 有监督学习 时空特征耦合 深度图
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部