期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于自蒸馏视觉Transformer的无监督行人重识别
1
作者 贾洁茹 杨建超 +2 位作者 张硕蕊 闫涛 陈斌 《计算机应用》 CSCD 北大核心 2024年第9期2893-2902,共10页
针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的... 针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的特性,随机选择一个中间Transformer块并将它送入分类器以得到预测结果;其次,通过最小化随机选择的中间分类器输出与最终分类器输出分布之间的Kullback-Leibler散度,约束中间块的分类预测结果与最终分类器的结果保持一致,据此构建自蒸馏损失函数;最后,通过对聚类级对比损失、实例级对比损失和自蒸馏损失进行联合最小化,对模型进行优化。此外,通过从最终分类器向中间块提供软监督,有效地给ViT模型引入归纳偏置,进而有助于模型学习更鲁棒和通用的视觉表征。与基于TransReID的自监督学习(TransReID-SSL)相比,在Market-1501数据集上,所提方法的平均精度均值(mAP)和Rank-1分别提升1.2和0.8个百分点;在MSMT17数据集上,所提方法的mAP和Rank-1分别提升3.4和3.1个百分点。实验结果表明,所提方法能够有效提高无监督行人重识别的精度。 展开更多
关键词 行人重识别 无监督学习 视觉Transformer 知识蒸馏 特征表示
在线阅读 下载PDF
结合卷积增强窗口注意力的双分支语音增强神经网络
2
作者 张晨辉 原之安 钱宇华 《计算机研究与发展》 北大核心 2025年第4期852-862,共11页
在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频... 在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战.主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息.在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性.在音频经过短时傅里叶变换(STFT)处理后,多数模型仅使用幅值信息,而忽略了相位信息,导致它们未能有效捕获语谱图特征,从而影响了语音增强的效果.基于此设计出一个带有卷积增强窗口注意力的双分支语音增强神经网络.该模型采用U-NET架构,通过双分支结构对音频的幅值和相位信息同时建模;在2个分支之间引入复值计算模块以实现信息交互;在编码器层和解码器层之间的跳跃连接部分采用卷积增强窗口注意力模块,该模块执行基于非重叠窗口的自注意力操作,在捕获局部上下文信息的同时显著降低了语音增强模型的计算复杂度.该模型在公开的Voicebank-Demand数据集上进行测试,与基线模型DCUNET 16和DCUNET20相比,在客观语音质量评估指标PESQ(perceptual evaluation of speech quality)分别提高了0.51和0.47.除了PESQ指标外,其他指标也都有显著的提升.相较于现有的各类语音增强模型,该模型在各项指标上均处于领先水平,尤其是在PESQ得分方面的提升更为显著. 展开更多
关键词 语音增强 双分支网络 语谱图特征 卷积增强窗口注意力 全局信息 局部信息
在线阅读 下载PDF
多景深图像聚焦信息的三维形貌重建:数据集与模型 被引量:2
3
作者 张江峰 闫涛 +2 位作者 王克琪 钱宇华 吴鹏 《计算机学报》 EI CAS CSCD 北大核心 2023年第8期1734-1752,共19页
受限于数据采集方式的多源异性与三维重建结果的昂贵标注,现有基于多景深图像聚焦信息的三维形貌重建方法通常需要根据具体应用场景设计,缺乏场景适应性.本文提出一种多景深图像数据集构建的理论与方法,并在此基础上设计具有良好鲁棒性... 受限于数据采集方式的多源异性与三维重建结果的昂贵标注,现有基于多景深图像聚焦信息的三维形貌重建方法通常需要根据具体应用场景设计,缺乏场景适应性.本文提出一种多景深图像数据集构建的理论与方法,并在此基础上设计具有良好鲁棒性的深度网络模型.构建的多景深图像数据集(MDFI Datasets)旨在剥离图像实际语义与深度信息的强关联性,通过联合输入图像序列的富纹理特性与三维形貌固有的同质与阶跃特性,提出形貌核函数非线性空间映射方法扩展数据集的多维性与多样性.设计的深度三维形貌重建网络模型(DSFF-Net)以U-Net为基础网络,添加可变形卷积模块(Deformable ConvNets v2)增强网络的特征提取能力,全新设计的局部-全局关系耦合模块(LGRCB)有助于提升模型全局聚焦信息的聚合能力.为验证MDFI Datasets的跨场景适用性和DSFF-Net模型的鲁棒性与泛化性,本文从四个不同方面进行实验对比分析.实验结果表明,相较于最先进的鲁棒聚焦体积正则化的聚焦形貌恢复算法(RFVR-SFF)和全聚焦深度网络(AiFDepth-Net),本文提出的DSFF-Net模型在RMSE指标上分别下降15%和29%;大景深场景实验表明,本文提出的数据集构建方法能够适应实际应用场景。 展开更多
关键词 三维形貌重建 深度学习 图像序列数据集 多聚焦图像 核函数
在线阅读 下载PDF
基于伪标签正则化损失的无监督行人重识别
4
作者 贾洁茹 张硕蕊 +1 位作者 钱宇华 阮秋琦 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1743-1758,共16页
无监督行人重识别旨在不需要行人身份标签的情况下,将查询的行人图像与候选集中的行人图像相匹配.目前主流的无监督行人重识别方法通常先利用聚类算法生成伪标签,然后利用伪标签训练深度神经网络.然而由于模型初始表征能力不足和聚类算... 无监督行人重识别旨在不需要行人身份标签的情况下,将查询的行人图像与候选集中的行人图像相匹配.目前主流的无监督行人重识别方法通常先利用聚类算法生成伪标签,然后利用伪标签训练深度神经网络.然而由于模型初始表征能力不足和聚类算法的局限性等,伪标签中会引入大量噪声,严重误导模型优化过程,导致模型性能退化.为了减轻伪标签噪声的影响,本文提出了一种新的伪标签正则化损失函数,用伪标签的置信度分数和样本相似度对伪标签噪声进行约束.具体来说,本文首先提出了一种聚类引导的注意力机制,根据伪标签与聚类中心的语义相关程度来估计伪标签的置信度,以此来识别噪声标签并给正确标签分配更多的权重,有效降低伪标签噪声在总体损失函数中的作用.同时,为了充分利用伪标签的判别能力,本文利用伪标签进行在线软样本挖掘,构建mini-batch中的正负样本对并为每个正负样本对计算一个连续的权重分数.通过将以上两种权重引入到对比损失中,本文提出的伪标签正则化损失函数可以有效抑制伪标签噪声的影响,减轻标签噪声对训练过程的影响,提高模型的准确性和鲁棒性.在多个公开行人数据集上的实验结果验证了本文方法的有效性,在Market1501、DukeMTMC-reID和MSMT17数据集上mAP分别达到了85.9%、75.1%和29.3%. 展开更多
关键词 行人重识别 无监督学习 伪标签噪声 对比学习 聚类优化
在线阅读 下载PDF
全局时空特征耦合的多景深三维形貌重建 被引量:1
5
作者 张江峰 闫涛 +2 位作者 陈斌 钱宇华 宋艳涛 《计算机应用》 CSCD 北大核心 2023年第3期894-902,共9页
针对现有三维形貌重建模型无法有效融合全局时空信息的问题,设计深度聚焦体积(DFV)模块保留聚焦和离焦的过渡信息,并在此基础上提出全局时空特征耦合(GSTFC)模型提取多景深图像序列的局部与全局的时空特征信息。首先,在收缩路径中穿插3D... 针对现有三维形貌重建模型无法有效融合全局时空信息的问题,设计深度聚焦体积(DFV)模块保留聚焦和离焦的过渡信息,并在此基础上提出全局时空特征耦合(GSTFC)模型提取多景深图像序列的局部与全局的时空特征信息。首先,在收缩路径中穿插3D-ConvNeXt模块和3D卷积层,捕捉多尺度局部时空特征,同时,在瓶颈模块中添加3D-SwinTransformer模块捕捉多景深图像序列局部时序特征的全局关联关系;然后,通过自适应参数层将局部时空特征和全局关联关系融合为全局时空特征,并输入扩张路径引导生成聚焦体积;最后,聚焦体积通过DFV提取序列权重信息,并保留聚焦与离焦的过渡信息,得到最终深度图。实验结果表明,GSTFC在FoD500数据集上的均方根误差(RMSE)相较于最先进的全聚焦深度网络(AiFDepthNet)下降了12.5%,并且比传统的鲁棒聚焦体积正则化的聚焦形貌恢复(RFVR-SFF)模型保留了更多的景深过渡关系。 展开更多
关键词 三维形貌重建 深度学习 有监督学习 时空特征耦合 深度图
在线阅读 下载PDF
强调信息传播和特征分布的说话人验证模型:EIPFD-ResNet 被引量:3
6
作者 张霞 刘乾 +3 位作者 郭倩 梁新彦 钱宇华 畅江 《小型微型计算机系统》 CSCD 北大核心 2023年第3期463-470,共8页
说话人验证是一种自然、有效的生物特征身份认证方法,其性能很大程度上取决于所提取说话人特征的质量.残差网络(ResNet)具有优越的推理能力,可以提取高质量的说话人特征,因此广泛地应用于说话人验证任务中,然而目前残差网络仍存在音频... 说话人验证是一种自然、有效的生物特征身份认证方法,其性能很大程度上取决于所提取说话人特征的质量.残差网络(ResNet)具有优越的推理能力,可以提取高质量的说话人特征,因此广泛地应用于说话人验证任务中,然而目前残差网络仍存在音频数据信息利用不充分,提取的特征不利于分类说话人等问题,这些问题大大限制了残差网络的表征能力.本文聚焦于残差网络的模型结构,详细分析了残差块分布比例、激活层、跳跃连接这些结构因素对特征信息提取的影响,以及模型输出特征分布对说话人分类结果的影响,并据此对原始残差块、特征下采样过程以及模型输出头重新设计并构建了一个新的说话人验证模型:EIPFD-ResNet.该模型采用更少激活层的残差块和单独设计的下采样层共同作用来减少音频信号的损失和噪声信息的引入,采用归一化处理后的模型输出头帮助分类损失提供更清晰的分类决策面,并在3个公开数据集(VoxCeleb1、VoxCeleb2、Cn-Celeb2)上评估了所提模型的有效性.实验结果证明,本文提出的模型在仅有7.486M参数量的情况下,相较于传统ResNet34模型,在3个数据集上的等错误率(EER)分别降低了16.4%、33.3%、6.0%,且与强说话人验证模型ECAPA-TDNN相比在VoxCeleb2和CN-Celeb2上EER分别降低了10%和9.0%. 展开更多
关键词 说话人验证 声纹识别 说话人嵌入 表征学习 残差网络
在线阅读 下载PDF
多粒度融合驱动的超多视图分类方法 被引量:3
7
作者 梁新彦 钱宇华 +1 位作者 郭倩 黄琴 《计算机研究与发展》 EI CSCD 北大核心 2022年第8期1653-1667,共15页
有效的融合算子可提升多视图分类方法的性能.随着视图个数增多,现有融合算子面临2方面挑战:1)表达能力强的融合算子得到的融合向量维度呈指数增加,而融合维度不变的融合算子的表达能力较弱;2)现有融合算子往往一次作用于全部视图,这种... 有效的融合算子可提升多视图分类方法的性能.随着视图个数增多,现有融合算子面临2方面挑战:1)表达能力强的融合算子得到的融合向量维度呈指数增加,而融合维度不变的融合算子的表达能力较弱;2)现有融合算子往往一次作用于全部视图,这种融合策略建模视图间的关系较为困难.为解决这些问题,受多粒度启发,提出一种多粒度融合的超多视图分类方法.首先,使用1个融合算子建模任意视图对之间的关系;然后,基于成对关系结果,使用1个融合算子建模每个视图与其他全部视图的关系;最后,基于每个视图与其他全部视图的关系结果,使用1个融合算子建模全部视图间的关系.4个大规模数据集上的实验结果表明:多粒度融合的超多视图分类方法的性能统计上优于比较方法,这表明多粒度由易到难建模视图特征间关系的策略确实可提升多视图分类方法的性能. 展开更多
关键词 超多视图 融合 分类 多粒度 多层次
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部