期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
农业自动化机械障碍物检测研究进展 被引量:9
1
作者 成科扬 朱雪森 +1 位作者 裴运申 詹永照 《江苏大学学报(自然科学版)》 CAS 北大核心 2023年第4期415-425,共11页
农业机械自动导航技术在智慧农业领域饱受关注,而障碍物检测则是其中的重要环节.首先分析了早年传感器检测技术的不足,然后对计算机视觉应用于农业机械智能障碍物的检测方法以及应用前景进行了综述.传感器技术由单一传感器到多传感器信... 农业机械自动导航技术在智慧农业领域饱受关注,而障碍物检测则是其中的重要环节.首先分析了早年传感器检测技术的不足,然后对计算机视觉应用于农业机械智能障碍物的检测方法以及应用前景进行了综述.传感器技术由单一传感器到多传感器信息融合,虽然已经十分成熟,但仍存在受障碍物表面影响以及检测成本过高等不足.计算机视觉和深度学习在近两年不断被用于农业领域,例如卷积神经网络等,但在遮挡、远距离检测、移动障碍物检测等多个方面仍有很大的提升空间.对二十几年来的农业障碍物检测技术进行了概括,总结了现有问题,并提出了符合未来我国智慧农业发展的新思路. 展开更多
关键词 农业机械 障碍物检测 计算机视觉 传感器 信息融合
在线阅读 下载PDF
基于元学习的半监督声音事件检测方法
2
作者 沈雅馨 高利剑 毛启容 《计算机科学》 北大核心 2025年第3期222-230,共9页
现有的半监督声音事件检测方法直接使用强标签合成样本、弱标签真实样本和无标签真实样本进行训练,以缓解标签样本量不足的问题。然而,合成和真实数据域之间存在不可避免的分布差异,这种差异会干扰模型梯度优化方向,从而限制模型的泛化... 现有的半监督声音事件检测方法直接使用强标签合成样本、弱标签真实样本和无标签真实样本进行训练,以缓解标签样本量不足的问题。然而,合成和真实数据域之间存在不可避免的分布差异,这种差异会干扰模型梯度优化方向,从而限制模型的泛化能力。针对这一问题,基于元学习(Meta Learning)提出了一种新颖的半监督声音事件检测学习范式MMT(Meta Mean Teacher)。具体来说,对于每个训练批次的数据,将其分为由合成样本组成的元训练集和由真实样本组成的元测试集;将模型在元训练集上计算的元梯度作为元测试梯度更新的指导,使模型感知并学习到更具泛化性的知识。在DCASE2021任务4数据集的测试集上进行对比实验,结果表明,相较于官方基线,所提出的学习范式MMT在F1,PSDS1和PSDS2指标上分别提升了8.9%,6.6%和1.1%;相较于当前的先进方法,所提出的学习范式MMT同样表现出了显著的性能优势。 展开更多
关键词 声音事件检测 元学习 一致性正则化 半监督学习 深度学习
在线阅读 下载PDF
利用全局-局部特征依赖的反欺骗说话人验证系统
3
作者 张嘉琳 任庆桦 毛启容 《计算机应用》 北大核心 2025年第1期308-317,共10页
针对现有卷积模型为主的反欺骗说话人验证系统捕获全局特征依赖不理想的问题,提出一种利用全局-局部特征依赖的反欺骗说话人验证系统。首先,对于欺骗语音检测模块,设计两种滤波器组合方式对原始语音进行滤波,并通过对频率子带的掩蔽实... 针对现有卷积模型为主的反欺骗说话人验证系统捕获全局特征依赖不理想的问题,提出一种利用全局-局部特征依赖的反欺骗说话人验证系统。首先,对于欺骗语音检测模块,设计两种滤波器组合方式对原始语音进行滤波,并通过对频率子带的掩蔽实现样本扩充;其次,提出多维全局注意力机制,通过对信道维度、频率维度和时间维度分别进行池化,获得每个维度的全局依赖关系,并将全局信息通过加权的方式与原始特征相融合;最后,在说话人验证部分引入统计金字塔池化时延神经网络(SPD-TDNN),在获取多尺度时频特征的同时计算特征的标准差,并加入全局信息。实验结果表明,与集成时频图卷积(AASIST)模型相比,在ASVspoof2019数据集上提出的欺骗语音检测系统将等错误率(EER)降低了65.4%;与单独的金字塔池化说话人验证系统相比,提出的反欺骗说话人验证系统将欺骗感知说话人验证等错误率降低了约97.8%。以上验证了所提两个模块借助全局特征依赖能实现更好的分类效果。 展开更多
关键词 说话人验证 数据增强 频率掩蔽 注意力机制 欺骗语音检测
在线阅读 下载PDF
基于时间分段和重组聚类的说话人日志方法 被引量:1
4
作者 朱必松 毛启容 +1 位作者 高利剑 沈雅馨 《计算机应用研究》 CSCD 北大核心 2024年第9期2649-2654,共6页
当前的说话人日志方法大多采用标准的全局聚类的方式来区分不同说话人的语音片段,没有考虑到同一个人的声音在不同的噪声条件下具有不同的特征分布,而这会增大类内距离,从而降低聚类精度。鉴于相邻的语音片段往往包含相同的背景噪声,提... 当前的说话人日志方法大多采用标准的全局聚类的方式来区分不同说话人的语音片段,没有考虑到同一个人的声音在不同的噪声条件下具有不同的特征分布,而这会增大类内距离,从而降低聚类精度。鉴于相邻的语音片段往往包含相同的背景噪声,提出一种新的基于时间分段和重组聚类的说话人日志方法以解决上述问题。首先,将所有语音片段按时间连续性划分成多个独立的时间段,并在段内进行局部聚类;然后,将不同时间段中属于同一个说话人的语音片段重新合并。此外,在聚类时利用语音片段的邻域信息来校准它们之间的相似度。通过这种方式降低了直接在不同噪声条件下进行聚类的概率,提高了聚类精度。在公开数据集AMI SDM和VoxConverse上的实验结果表明,与基线方法相比,所提方法的日志错误率分别相对降低了34%和16%,充分证明了该方法的有效性。 展开更多
关键词 说话人日志 聚类 噪声 邻域
在线阅读 下载PDF
基于多尺度距离矩阵的语音关键词检测与细粒度定位方法
5
作者 李祥瑞 毛启容 《计算机应用研究》 CSCD 北大核心 2024年第11期3370-3375,共6页
针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方... 针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方法首先利用残差卷积网络提取特征并构建距离矩阵以建模输入之间的相关性;其次通过多尺度分割和解耦头学习不同尺度下的定位信息;最后根据多尺度加权定位损失、置信度损失和分类损失优化模型,实现对关键词存在性和时域边界的细粒度预测。在LibriSpeech数据集上的实验结果表明,MF-STD在集内词的检测中,精准率和交并比分别达到97.1%和88.6%;在集外词的检测中,精准率和交并比分别达到96.7%和88.2%。与现有的语音关键词检测与定位方法相比,MF-STD的检测准确率和定位精度显著提升,充分证明该方法的先进性,也证明了多尺度特征建模与细粒度定位约束在语音关键词检测任务中的有效性。 展开更多
关键词 语音关键词检测 语音细粒度定位 多尺度检测 残差卷积网络
在线阅读 下载PDF
基于加权稀疏低秩组件编码的猪脸识别算法 被引量:5
6
作者 成科扬 孙家傲 +1 位作者 毛启容 詹永照 《江苏大学学报(自然科学版)》 EI CAS 北大核心 2020年第3期314-320,共7页
针对养殖行业中动物很难适应耳标的问题,采用非入侵的识别方式进行猪脸识别,提出了基于加权稀疏低秩组件编码的猪脸识别算法.应用视网膜皮层理论与区域协方差滤波器来估计光照,并结合文中新算法提出自适应伽马校正方法对获取的反射分量... 针对养殖行业中动物很难适应耳标的问题,采用非入侵的识别方式进行猪脸识别,提出了基于加权稀疏低秩组件编码的猪脸识别算法.应用视网膜皮层理论与区域协方差滤波器来估计光照,并结合文中新算法提出自适应伽马校正方法对获取的反射分量进行增强,以减少光照对识别结果的影响;同时,采用训练样本中的低秩组件构建字典矩阵,并重构残差函数处理误差,以提升算法应对含有污垢图像的识别性能.在JDD2017猪脸数据集上进行了光照和面部污垢验证试验,分别统计其识别率与耗时情况.结果表明:文中所提出算法显著优于传统稀疏表示方法,具有容忍光照变化、污垢和训练耗时短的优点. 展开更多
关键词 猪脸识别 稀疏表示分类 低秩分解 RETINEX 残差函数
在线阅读 下载PDF
基于深度学习的遥感图像超分辨率重建方法综述 被引量:9
7
作者 成科扬 荣兰 +1 位作者 蒋森林 詹永照 《郑州大学学报(工学版)》 CAS 北大核心 2022年第5期8-16,共9页
基于深度学习的遥感图像超分辨率重建方法是计算机视觉中的重要方法之一。传统的遥感图像超分辨率重建方法已无法满足地物目标识别和土地检测等应用的需求,如何利用深度学习来重建遥感图像的分辨率是目前要解决的问题。结合国内外最新... 基于深度学习的遥感图像超分辨率重建方法是计算机视觉中的重要方法之一。传统的遥感图像超分辨率重建方法已无法满足地物目标识别和土地检测等应用的需求,如何利用深度学习来重建遥感图像的分辨率是目前要解决的问题。结合国内外最新研究现状,将基于深度学习的遥感图像超分辨率重建方法分成3大类:单幅遥感图像超分辨率重建方法、多幅遥感图像超分辨率重建方法和多/高光谱遥感图像超分辨率重建方法。系统梳理了基于深度学习的单幅遥感图像超分辨率重建方法,包括基于多尺度特征提取的方法、结合小波变换的方法、沙漏状生成网络的方法、边缘增强网络的方法以及可跨传感器的方法。总结了基于深度学习的多幅遥感图像和多/高光谱遥感图像超分辨率重建方法中目前主流的方法。通过实验结果分析了遥感图像超分辨率重建方法目前效果最好的单幅图像超分辨率重建方法是基于GAN的方法,但是多幅遥感图像和多/高光谱遥感图像超分辨率重建效果仍然不佳,存在配准融合、多源信息融合等问题。最后,对基于深度学习的遥感图像超分辨率重建方法未来可能的发展趋势进行了展望,指出构建针对遥感图像特点的神经网络结构,无监督学习的遥感图像超分辨率重建方法,以及多源遥感图像的超分辨率重建方法是未来的研究趋势。 展开更多
关键词 遥感图像 超分辨率重建 深度学习 卷积神经网络 生成对抗网络
在线阅读 下载PDF
基于条件变分自编码器的端到端情感语音合成方法 被引量:4
8
作者 张建明 彭锦涛 +1 位作者 贾洪杰 毛启容 《信号处理》 CSCD 北大核心 2023年第4期678-687,共10页
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均... 情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法(Conditional Duration-Tacotron,CD-Tacotron),该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。 展开更多
关键词 情感语音合成 条件变分自编码器 端到端 Tacotron
在线阅读 下载PDF
面向目标检测的双驱自适应遥感图像超分重建方法 被引量:2
9
作者 成科扬 荣兰 +1 位作者 蒋森林 詹永照 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第8期1343-1352,共10页
现有光学遥感图像超分重建方法主要是生成视觉上令人满意的图像,并未考虑后续目标检测任务的特殊性,不能有效地应用到目标检测中。基于此,提出了面向目标检测的双驱动自适应多尺度光学遥感图像超分重建方法,将超分重建网络和目标检测网... 现有光学遥感图像超分重建方法主要是生成视觉上令人满意的图像,并未考虑后续目标检测任务的特殊性,不能有效地应用到目标检测中。基于此,提出了面向目标检测的双驱动自适应多尺度光学遥感图像超分重建方法,将超分重建网络和目标检测网络结合起来,进行联合优化。针对光学遥感图像的特点设计了自适应多尺度遥感图像超分重建网络,集成选择性内核网络和自适应特征门控单元来特征提取和融合,重建出初步遥感图像。通过提出的双驱动模块,将特征先验驱动损失和任务驱动损失传到超分重建网络中,提高目标检测的性能。在UCAS-AOD和NWPU VHR-10数据集上进行实验,并与5种主流方法进行比较,所提方法的峰值信噪比和平均准确率相较于FDSR方法分别提高了1.86 dB和3.73%。实验结果表明,所提方法和光学遥感图像目标检测结合可以取得更好的效果,综合性能更佳。 展开更多
关键词 遥感图像超分重建 目标检测 多尺度 特征先验驱动 任务驱动
在线阅读 下载PDF
结合时序网络和金字塔融合的稳像修复方法
10
作者 刘清 李世超 +2 位作者 王文杉 师文喜 成科扬 《图学学报》 CSCD 北大核心 2021年第1期65-70,共6页
针对视频稳像领域内视频图像缺损填充效果不佳,严重影响视觉效果,且导致稳像处理后的视频不稳的黑边填充问题,提出了一种基于时序网络预测和金字塔融合的图像修复方法。首先结合预裁剪机制自适应判断当前帧是否需修复;然后将截止至当前... 针对视频稳像领域内视频图像缺损填充效果不佳,严重影响视觉效果,且导致稳像处理后的视频不稳的黑边填充问题,提出了一种基于时序网络预测和金字塔融合的图像修复方法。首先结合预裁剪机制自适应判断当前帧是否需修复;然后将截止至当前时刻的所有帧送入卷积神经网络(CNN)和门控循环单元(GRU)的模型进行待填充部分的预测;随后采用改进的加权最佳缝合线进行拼接并在高斯拉普拉斯金字塔中进行图像融合重构;最终在重构完成后裁剪尺寸。实验结果表明,该方法平均峰值信噪比(PSNR)相较于对比算法提高了2~5dB,平均结构相似度(SSIM)较对比算法提升了约2%~7%。该方法修复后的视频缺损填充自然,视觉效果较为稳定,即使在黑边面积较大时也有良好的修复效果,可用于多种摄像平台及不同场景下。 展开更多
关键词 视频稳像 视频图像修复 时序网络 金字塔融合 最佳缝合线
在线阅读 下载PDF
面向语音增强的双复数卷积注意聚合递归网络 被引量:6
11
作者 余本年 詹永照 +2 位作者 毛启容 董文龙 刘洪麟 《计算机应用》 CSCD 北大核心 2023年第10期3217-3224,共8页
针对现有的语音增强方法对语谱图特征关联信息表达有限和去噪效果不理想的问题,提出一种双复数卷积注意聚合递归网络(DCCARN)的语音增强方法。首先,建立双复数卷积网络,对短时傅里叶变换后的语谱图特征进行两分支信息编码;其次,将两分... 针对现有的语音增强方法对语谱图特征关联信息表达有限和去噪效果不理想的问题,提出一种双复数卷积注意聚合递归网络(DCCARN)的语音增强方法。首先,建立双复数卷积网络,对短时傅里叶变换后的语谱图特征进行两分支信息编码;其次,将两分支中编码分别使用特征块间和特征块内注意力机制对不同的语音特征信息进行重标注;再次,使用长短期记忆(LSTM)网络处理长时间序列信息,并用两解码器还原语谱图特征并聚合这些特征;最后,经短时逆傅里叶变换生成目标语音波形,以达到抑制噪声的目的。在公开数据集VBD(Voice Bank+DMAND)和加噪的TIMIT数据集上进行的实验的结果表明,与相位感知的深度复数卷积递归网络(DCCRN)相比,DCCARN在客观语音感知质量指标(PESQ)上分别提升了0.150和0.077~0.087。这验证了所提方法能更准确地捕获语谱图特征的关联信息,更有效地抑制噪声,并提高语音的清晰度。 展开更多
关键词 语音增强 注意力机制 复数卷积网络 编码 长短期记忆网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部