期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于双层路由注意力和自校准卷积的豹个体识别
1
作者 杨婉 陈爱斌 +3 位作者 赵莹 武阅 甑鑫 肖治术 《应用科学学报》 北大核心 2025年第2期348-360,共13页
自然环境中豹的图像在用于个体识别任务时,个体与环境融合度高、类间相似性高这两个因素会导致识别困难,为此结合自校准卷积和双层路由注意力,提出了一种改进的EfficientNet模型。自校准卷积能够自适应地在每个空间位置周围构建远程空... 自然环境中豹的图像在用于个体识别任务时,个体与环境融合度高、类间相似性高这两个因素会导致识别困难,为此结合自校准卷积和双层路由注意力,提出了一种改进的EfficientNet模型。自校准卷积能够自适应地在每个空间位置周围构建远程空间和通道间的依赖关系,并显式地结合更丰富的信息来增强对细节特征的识别能力,解决了类间相似性高带来的识别难题。双层路由注意力结合自顶向下的全局注意力和自底向上的局部注意力,解决了个体与环境融合度高的问题。实验结果显示,改进后的模型在豹个体识别任务上的准确率达到了95.56%,显著高于原始的EfficientNet模型,证明了所提出的模型在处理豹个体识别任务上的有效性和先进性。 展开更多
关键词 个体识别 自校准卷积 双层路由注意力 深度学习 自建数据集
在线阅读 下载PDF
基于多路激励和金字塔切分注意力的鸟类行为识别
2
作者 邓抒憧 陈爱斌 戴子健 《应用科学学报》 北大核心 2025年第1期154-168,共15页
针对传统行为识别方法在处理复杂鸟类行为模式时存在辨识率低、误判率高等问题,提出了一种基于多路激励模块和金字塔切分注意力的改进3D残差网络的深度学习模型。利用帧间差分法有效减轻计算负担,在精确保留关键时空信息的同时提高了识... 针对传统行为识别方法在处理复杂鸟类行为模式时存在辨识率低、误判率高等问题,提出了一种基于多路激励模块和金字塔切分注意力的改进3D残差网络的深度学习模型。利用帧间差分法有效减轻计算负担,在精确保留关键时空信息的同时提高了识别精度。引入多路激励模块改进原有残差块,使模型能够精准捕捉细微运动行为特征,解决了鸟类复杂动态行为识别易混淆的问题。以3D金字塔切分注意力替换原有3D卷积层,实现对不同尺度鸟类行为特征的有效捕获。在自建鸟类行为视频数据集上进行实验,对常见鸟类行为的识别准确率达到90.48%,显著优于基准模型与其他现有流行行为识别网络,证明了所提模型对复杂鸟类行为识别的有效性。 展开更多
关键词 鸟类行为识别 多路激励 金字塔切分注意力 帧间差分法 自建数据集
在线阅读 下载PDF
基于深度学习的甜味剂分类模型 被引量:6
3
作者 肖凌俊 陈爱斌 +1 位作者 周国雄 易积政 《农业工程学报》 EI CAS CSCD 北大核心 2021年第11期285-291,共7页
针对开发甜味剂过程中筛选百万级别甚至千万级别的天然或合成分子需要大量时间和资金的问题,该研究提出了一种基于深度学习的甜味剂分类模型。首先对数据集进行了扩增和优化,生成分子指纹以及分子图片,然后将注意力机制加入到DenseNet... 针对开发甜味剂过程中筛选百万级别甚至千万级别的天然或合成分子需要大量时间和资金的问题,该研究提出了一种基于深度学习的甜味剂分类模型。首先对数据集进行了扩增和优化,生成分子指纹以及分子图片,然后将注意力机制加入到DenseNet结构中,对分子特征和提取的特征进行融合。在20029个分子图像和分子指纹数据集上进行训练,并在独立测试集上进行模型检验。试验结果表明,分类准确率为0.934,准确率波动幅度小于0.005,4类物质(强甜味、弱甜味、无味、苦味)的分类精度均超过0.91,优于传统机器学习模型和常用的卷积神经网络模型,可以从大量分子中筛选并识别目标分子,能使相关研究人员更容易地筛选出潜在甜味剂,并为将来甜味剂的筛选提供了一种思路与方法。 展开更多
关键词 深度学习 模型 甜味剂 分类 卷积神经网络 特征融合
在线阅读 下载PDF
动态人脸图像序列中表情完全帧的定位与识别 被引量:6
4
作者 司马懿 易积政 +1 位作者 陈爱斌 周孟娜 《应用科学学报》 CAS CSCD 北大核心 2021年第3期357-366,共10页
考虑到人脸表情演变是一个持续过程,相比于静态图像,动态图像序列更适合作为人脸表情识别的研究对象。该文提出了一种基于嵌入网络的序列帧定位模型,利用加载预训练权重的Inception ResNet v1网络提取人脸表情序列各帧的特征向量,通过... 考虑到人脸表情演变是一个持续过程,相比于静态图像,动态图像序列更适合作为人脸表情识别的研究对象。该文提出了一种基于嵌入网络的序列帧定位模型,利用加载预训练权重的Inception ResNet v1网络提取人脸表情序列各帧的特征向量,通过计算特征向量间的欧氏距离,定位出具有最大表情强度的完全帧,进而获取人脸表情序列数据;为了进一步验证定位模型的准确性,分别利用VGG16模型和ResNet50模型对定位的完全帧进行人脸表情识别。在CK+和MMI人脸表情数据库上进行了实验,所提的序列帧定位模型的定位平均准确率分别达到98.31%和98.08%;利用VGG16模型与ResNet50模型对定位的完全帧进行表情识别,在两个数据库上的实验结果分别达到了96.32%和96.5%,87.23%和87.88%,结果表明所提出的模型能够获取可靠的表情完全帧,并取得了令人满意的人脸表情识别效果。 展开更多
关键词 人脸表情序列 嵌入网络 完全帧定位 特征向量 人脸表情识别
在线阅读 下载PDF
基于正弦注意力表征网络的环境声音识别 被引量:5
5
作者 彭宁 陈爱斌 +2 位作者 周国雄 陈文洁 刘晶 《应用科学学报》 CAS CSCD 北大核心 2021年第4期641-649,共9页
将正弦注意力表征网络引入环境声音识别,首先提取梅尔频率倒谱系数(Melfrequency cepstral coefficient,MFCC)作为音频识别特征,使用门控循环单元提取MFCC每一帧的特征,根据正弦函数激活每一帧音频得分,并依照每一帧的音频得分为音频重... 将正弦注意力表征网络引入环境声音识别,首先提取梅尔频率倒谱系数(Melfrequency cepstral coefficient,MFCC)作为音频识别特征,使用门控循环单元提取MFCC每一帧的特征,根据正弦函数激活每一帧音频得分,并依照每一帧的音频得分为音频重新分配权重,从而将注意力集中在音频重点区域。最后结合全连接层和Softmax分类器对环境声音类别进行判别。实验在公开数据集Urban Sound 8K上验证并与其他模型对比,结果表明所提出模型效果最好,在数据集上的识别率高达93.5%。 展开更多
关键词 环境声音识别 注意力机制 梅尔频率倒谱系数 门控循环单元 正弦注意力表征网络
在线阅读 下载PDF
基于自注意力机制时频谱同源特征融合的鸟鸣声分类 被引量:3
6
作者 刘志华 陈文洁 陈爱斌 《计算机应用》 CSCD 北大核心 2022年第4期1260-1268,共9页
目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点,提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先,使用卷积神经网络(CNN)提取鸟鸣声梅尔... 目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点,提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先,使用卷积神经网络(CNN)提取鸟鸣声梅尔时频谱特征;然后,使用特定的卷积以及下采样操作,将同一梅尔时频谱特征的时域和频域维度分别压缩至1,得到仅包含鸟鸣声高低特性的频域特征以及连续特性的时域特征。基于上述提取频域以及时域特征的操作,在时域和频域维度上同时对梅尔时频谱特征进行提取,得到具有连续性以及高低特性的时频域特征。然后,将自注意力机制分别用于得到的时域、频域、时频域特征以加强其各自拥有的特性。最后,将这三类同源谱图特征决策融合后的结果用于鸟鸣声分类。所提模型用于Xeno-canto网站的8种鸟类音频分类,并在分类对比实验中取得了平均精确率(MAP)为0.939的较好结果。实验结果表明该模型能应对复杂背景噪声下的鸟鸣声分类效果较差的问题。 展开更多
关键词 深度学习 鸟鸣声分类 卷积神经网络 自注意力机制 同源谱图特征融合
在线阅读 下载PDF
基于时频复值特征的多尺度扩张DenseNet条件源分离网络 被引量:2
7
作者 向进 陈爱斌 +1 位作者 彭伟雄 温治芳 《郑州大学学报(理学版)》 CAS 北大核心 2023年第5期60-66,共7页
目前时频域音乐源分离方法大多基于幅度谱,这些方法忽略了相位信息而具有局限性。提出一种基于复值谱图的条件多尺度扩张密集卷积网络(C-MDilDenseNet)用于音乐源分离。首先,频谱图中时间轴和频率轴具有受音频速率和音调等独立影响而变... 目前时频域音乐源分离方法大多基于幅度谱,这些方法忽略了相位信息而具有局限性。提出一种基于复值谱图的条件多尺度扩张密集卷积网络(C-MDilDenseNet)用于音乐源分离。首先,频谱图中时间轴和频率轴具有受音频速率和音调等独立影响而变化的声学特性,提出时频扩张密集块,有效增大了网络对频谱特征的感受野。其次,引入特征线性调制(FiLM)以扩展网络适应多源分离任务,并提出门控特征线性调制(GFiLM),从而更灵活、更有表现力地调节中间特征。最后,实验结果表明,在MUSDB18数据集的音乐源分离任务上,所提出的网络模型与基准模型相比,平均信号失真比提高了0.49 dB,与现有一些时域和时频域分离方法相比,具有更好的分离性能且参数量相对较少。 展开更多
关键词 音乐源分离 DenseNet 复值特征 GFiLM 扩张密集块
在线阅读 下载PDF
FSDN:基于嵌套U-Net结构的人脸阴影检测模型
8
作者 刘佳奇 易积政 陈爱斌 《郑州大学学报(理学版)》 CAS 北大核心 2023年第2期51-56,共6页
人脸阴影检测通常作为人脸图像相关任务的预处理步骤,避免阴影带来干扰。提出基于深度学习的人脸阴影检测方案,在解决方案中,首先根据光照和人脸结构信息,对耶鲁人脸数据库中1600张光照不均匀人脸图像的阴影区域进行标注,构建人脸阴影... 人脸阴影检测通常作为人脸图像相关任务的预处理步骤,避免阴影带来干扰。提出基于深度学习的人脸阴影检测方案,在解决方案中,首先根据光照和人脸结构信息,对耶鲁人脸数据库中1600张光照不均匀人脸图像的阴影区域进行标注,构建人脸阴影检测数据集;之后设计基于嵌套U-Net结构和注意力模块的人脸阴影检测网络,嵌套U-Net结构被用于提取图像的高分辨率信息和全局特征,注意力模块被用于融合各个嵌套U-Net的输出,同时抑制低阶子层带来的噪声信息;最后在标注的人脸检测数据集上对网络进行了评估,实验结果表明,所提方法的平均检测错误率比对照组中最优方案降低了14.2%,可以有效地检测图像中的小面积阴影,并提供更精确的阴影边缘定位。 展开更多
关键词 人脸图像 阴影检测 卷积神经网络 注意力机制
在线阅读 下载PDF
基于复值谱图的重参数化结构声源分离条件网络
9
作者 杨道武 陈文洁 陈爱斌 《郑州大学学报(理学版)》 北大核心 2022年第2期61-66,共6页
通过改进频率变换块以适应多源任务,并扩展了标准的U-Net进行多源分离。首先,提出一种基于复值谱图的条件机制网络,以捕获与源相关的时频模式;其次,采用潜在源注意力机制提取全局时频信息,建立长距离和层级化的时频依赖关系,根据重参数... 通过改进频率变换块以适应多源任务,并扩展了标准的U-Net进行多源分离。首先,提出一种基于复值谱图的条件机制网络,以捕获与源相关的时频模式;其次,采用潜在源注意力机制提取全局时频信息,建立长距离和层级化的时频依赖关系,根据重参数化结构丰富卷积块的特征空间,在不大量增加参数的前提下可以保持相同的性能;最后,在MUSDB源分离任务上的实验结果表明,所提方法和一些已有方法性能相当。 展开更多
关键词 音频源分离 重参数化 时频模式 条件机制 复值谱图
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部