检索结果-维普期刊中文期刊服务平台

基于自蒸馏视觉Transformer的无监督行人重识别: 1; 作者贾洁茹杨建超 +2 位作者张硕蕊闫涛陈斌《计算机应用》 CSCD 北大核心 2024年第9期2893-2902,共10页; 针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的... 展开更多; 关键词行人重识别无监督学习视觉Transformer 知识蒸馏特征表示; 在线阅读下载PDF 职称材料

结合卷积增强窗口注意力的双分支语音增强神经网络: 2; 作者张晨辉原之安钱宇华《计算机研究与发展》北大核心 2025年第4期852-862,共11页; 在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频... 展开更多; 关键词语音增强双分支网络语谱图特征卷积增强窗口注意力全局信息局部信息; 在线阅读下载PDF 职称材料

多景深图像聚焦信息的三维形貌重建:数据集与模型被引量：2: 3; 作者张江峰闫涛 +2 位作者王克琪钱宇华吴鹏《计算机学报》 EI CAS CSCD 北大核心 2023年第8期1734-1752,共19页; 受限于数据采集方式的多源异性与三维重建结果的昂贵标注,现有基于多景深图像聚焦信息的三维形貌重建方法通常需要根据具体应用场景设计,缺乏场景适应性.本文提出一种多景深图像数据集构建的理论与方法,并在此基础上设计具有良好鲁棒性... 展开更多; 关键词三维形貌重建深度学习图像序列数据集多聚焦图像核函数; 在线阅读下载PDF 职称材料

全局时空特征耦合的多景深三维形貌重建被引量：1: 4; 作者张江峰闫涛 +2 位作者陈斌钱宇华宋艳涛《计算机应用》 CSCD 北大核心 2023年第3期894-902,共9页; 针对现有三维形貌重建模型无法有效融合全局时空信息的问题,设计深度聚焦体积(DFV)模块保留聚焦和离焦的过渡信息,并在此基础上提出全局时空特征耦合(GSTFC)模型提取多景深图像序列的局部与全局的时空特征信息。首先,在收缩路径中穿插3D... 展开更多; 关键词三维形貌重建深度学习有监督学习时空特征耦合深度图; 在线阅读下载PDF 职称材料

题名基于自蒸馏视觉Transformer的无监督行人重识别: 1; 作者贾洁茹杨建超张硕蕊闫涛陈斌; 机构山西大学大数据科学与产业研究院山西大学计算机与信息技术学院山西省机器视觉与数据挖掘工程研究中心(山西大学) 哈尔滨工业大学重庆研究院哈尔滨工业大学(深圳)国际人工智能研究院; 出处《计算机应用》 CSCD 北大核心 2024年第9期2893-2902,共10页; 基金国家自然科学基金资助项目(62106133) 中央引导地方科技发展资金资助项目(YDZJSX20231C001)。; 文摘针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的特性,随机选择一个中间Transformer块并将它送入分类器以得到预测结果;其次,通过最小化随机选择的中间分类器输出与最终分类器输出分布之间的Kullback-Leibler散度,约束中间块的分类预测结果与最终分类器的结果保持一致,据此构建自蒸馏损失函数;最后,通过对聚类级对比损失、实例级对比损失和自蒸馏损失进行联合最小化,对模型进行优化。此外,通过从最终分类器向中间块提供软监督,有效地给ViT模型引入归纳偏置,进而有助于模型学习更鲁棒和通用的视觉表征。与基于TransReID的自监督学习(TransReID-SSL)相比,在Market-1501数据集上,所提方法的平均精度均值(mAP)和Rank-1分别提升1.2和0.8个百分点;在MSMT17数据集上,所提方法的mAP和Rank-1分别提升3.4和3.1个百分点。实验结果表明,所提方法能够有效提高无监督行人重识别的精度。; 关键词行人重识别无监督学习视觉Transformer 知识蒸馏特征表示; Keywords person re-identification unsupervised learning Vision Transformer(ViT) knowledge distillation feature representation; 分类号 TP391.4 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名结合卷积增强窗口注意力的双分支语音增强神经网络: 2; 作者张晨辉原之安钱宇华; 机构山西大学大数据科学与产业研究院山西省机器视觉与数据挖掘工程研究中心(山西大学); 出处《计算机研究与发展》北大核心 2025年第4期852-862,共11页; 基金国家自然科学基金重点项目(62136005) 新一代人工智能国家科技重大专项(2021ZD0112400) 山西省科技重大专项计划“揭榜挂帅”项目(202201020101006)。; 文摘在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频经过短时傅里叶变换(STFT)处理后,多数模型仅使用幅值信息,而忽略了相位信息,导致它们未能有效捕获语谱图特征,从而影响了语音增强的效果.基于此设计出一个带有卷积增强窗口注意力的双分支语音增强神经网络.该模型采用U-NET架构,通过双分支结构对音频的幅值和相位信息同时建模;在2个分支之间引入复值计算模块以实现信息交互;在编码器层和解码器层之间的跳跃连接部分采用卷积增强窗口注意力模块,该模块执行基于非重叠窗口的自注意力操作,在捕获局部上下文信息的同时显著降低了语音增强模型的计算复杂度.该模型在公开的Voicebank-Demand数据集上进行测试,与基线模型DCUNET 16和DCUNET20相比,在客观语音质量评估指标PESQ(perceptual evaluation of speech quality)分别提高了0.51和0.47.除了PESQ指标外,其他指标也都有显著的提升.相较于现有的各类语音增强模型,该模型在各项指标上均处于领先水平,尤其是在PESQ得分方面的提升更为显著.; 关键词语音增强双分支网络语谱图特征卷积增强窗口注意力全局信息局部信息; Keywords speech enhancement dual-branch network spectrogram features convolutional enhancement window attention global information local information; 分类号 TP391.4 [自动化与计算机技术—计算机应用技术] TN912.3 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名多景深图像聚焦信息的三维形貌重建:数据集与模型被引量：2: 3; 作者张江峰闫涛王克琪钱宇华吴鹏; 机构山西大学大数据科学与产业研究院山西大学计算机与信息技术学院山西省机器视觉与数据挖掘工程研究中心(山西大学) 哈尔滨工业大学重庆研究院计算智能与中文信息处理教育部重点实验室(山西大学); 出处《计算机学报》 EI CAS CSCD 北大核心 2023年第8期1734-1752,共19页; 基金国家自然科学基金重点项目(62136005) 国家自然科学基金(62006146)资助科技创新2030-重大项目(2021ZD0112400)。; 文摘受限于数据采集方式的多源异性与三维重建结果的昂贵标注,现有基于多景深图像聚焦信息的三维形貌重建方法通常需要根据具体应用场景设计,缺乏场景适应性.本文提出一种多景深图像数据集构建的理论与方法,并在此基础上设计具有良好鲁棒性的深度网络模型.构建的多景深图像数据集(MDFI Datasets)旨在剥离图像实际语义与深度信息的强关联性,通过联合输入图像序列的富纹理特性与三维形貌固有的同质与阶跃特性,提出形貌核函数非线性空间映射方法扩展数据集的多维性与多样性.设计的深度三维形貌重建网络模型(DSFF-Net)以U-Net为基础网络,添加可变形卷积模块(Deformable ConvNets v2)增强网络的特征提取能力,全新设计的局部-全局关系耦合模块(LGRCB)有助于提升模型全局聚焦信息的聚合能力.为验证MDFI Datasets的跨场景适用性和DSFF-Net模型的鲁棒性与泛化性,本文从四个不同方面进行实验对比分析.实验结果表明,相较于最先进的鲁棒聚焦体积正则化的聚焦形貌恢复算法(RFVR-SFF)和全聚焦深度网络(AiFDepth-Net),本文提出的DSFF-Net模型在RMSE指标上分别下降15%和29%;大景深场景实验表明,本文提出的数据集构建方法能够适应实际应用场景。; 关键词三维形貌重建深度学习图像序列数据集多聚焦图像核函数; Keywords 3D shape reconstruction deep learning image sequence datasets multi-focus images kernel function; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名全局时空特征耦合的多景深三维形貌重建被引量：1: 4; 作者张江峰闫涛陈斌钱宇华宋艳涛; 机构山西大学计算机与信息技术学院山西大学大数据科学与产业研究院山西省机器视觉与数据挖掘工程研究中心(山西大学) 哈尔滨工业大学重庆研究院哈尔滨工业大学(深圳)国际人工智能研究院; 出处《计算机应用》 CSCD 北大核心 2023年第3期894-902,共9页; 基金国家自然科学基金资助项目(62006146) 山西省基础研究计划资助项目(201901D211170)。; 文摘针对现有三维形貌重建模型无法有效融合全局时空信息的问题,设计深度聚焦体积(DFV)模块保留聚焦和离焦的过渡信息,并在此基础上提出全局时空特征耦合(GSTFC)模型提取多景深图像序列的局部与全局的时空特征信息。首先,在收缩路径中穿插3D-ConvNeXt模块和3D卷积层,捕捉多尺度局部时空特征,同时,在瓶颈模块中添加3D-SwinTransformer模块捕捉多景深图像序列局部时序特征的全局关联关系;然后,通过自适应参数层将局部时空特征和全局关联关系融合为全局时空特征,并输入扩张路径引导生成聚焦体积;最后,聚焦体积通过DFV提取序列权重信息,并保留聚焦与离焦的过渡信息,得到最终深度图。实验结果表明,GSTFC在FoD500数据集上的均方根误差(RMSE)相较于最先进的全聚焦深度网络(AiFDepthNet)下降了12.5%,并且比传统的鲁棒聚焦体积正则化的聚焦形貌恢复(RFVR-SFF)模型保留了更多的景深过渡关系。; 关键词三维形貌重建深度学习有监督学习时空特征耦合深度图; Keywords 3D shape reconstruction deep learning supervised learning spatio-temporal feature coupling depth map; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于自蒸馏视觉Transformer的无监督行人重识别	贾洁茹杨建超张硕蕊闫涛陈斌	《计算机应用》 CSCD 北大核心	2024	0	在线阅读下载PDF 职称材料
2	结合卷积增强窗口注意力的双分支语音增强神经网络	张晨辉原之安钱宇华	《计算机研究与发展》北大核心	2025	0	在线阅读下载PDF 职称材料
3	多景深图像聚焦信息的三维形貌重建:数据集与模型	张江峰闫涛王克琪钱宇华吴鹏	《计算机学报》 EI CAS CSCD 北大核心	2023	2	在线阅读下载PDF 职称材料
4	全局时空特征耦合的多景深三维形貌重建	张江峰闫涛陈斌钱宇华宋艳涛	《计算机应用》 CSCD 北大核心	2023	1	在线阅读下载PDF 职称材料