-
题名基于多路激励和金字塔切分注意力的鸟类行为识别
- 1
-
-
作者
邓抒憧
陈爱斌
戴子健
-
机构
中南林业科技大学人工智能应用研究所
-
出处
《应用科学学报》
北大核心
2025年第1期154-168,共15页
-
基金
国家自然科学基金(No.62276276)
湖南省自然科学基金(No.2024JJ5647)资助。
-
文摘
针对传统行为识别方法在处理复杂鸟类行为模式时存在辨识率低、误判率高等问题,提出了一种基于多路激励模块和金字塔切分注意力的改进3D残差网络的深度学习模型。利用帧间差分法有效减轻计算负担,在精确保留关键时空信息的同时提高了识别精度。引入多路激励模块改进原有残差块,使模型能够精准捕捉细微运动行为特征,解决了鸟类复杂动态行为识别易混淆的问题。以3D金字塔切分注意力替换原有3D卷积层,实现对不同尺度鸟类行为特征的有效捕获。在自建鸟类行为视频数据集上进行实验,对常见鸟类行为的识别准确率达到90.48%,显著优于基准模型与其他现有流行行为识别网络,证明了所提模型对复杂鸟类行为识别的有效性。
-
关键词
鸟类行为识别
多路激励
金字塔切分注意力
帧间差分法
自建数据集
-
Keywords
bird action recognition
multiple excitation
pyramid split attention
inter-frame difference method
self-built dataset
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名动态人脸图像序列中表情完全帧的定位与识别
被引量:6
- 2
-
-
作者
司马懿
易积政
陈爱斌
周孟娜
-
机构
中南林业科技大学人工智能应用研究所
中南林业科技大学智慧物流技术湖南省重点实验室
中南林业科技大学计算机与信息工程学院
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2021年第3期357-366,共10页
-
基金
国家自然科学基金青年科学基金(No.61602528)
湖南省自然科学基金青年基金(No.2017JJ3527)
中南林业科技大学高水平人才引进基金(No.2015YJ013)资助。
-
文摘
考虑到人脸表情演变是一个持续过程,相比于静态图像,动态图像序列更适合作为人脸表情识别的研究对象。该文提出了一种基于嵌入网络的序列帧定位模型,利用加载预训练权重的Inception ResNet v1网络提取人脸表情序列各帧的特征向量,通过计算特征向量间的欧氏距离,定位出具有最大表情强度的完全帧,进而获取人脸表情序列数据;为了进一步验证定位模型的准确性,分别利用VGG16模型和ResNet50模型对定位的完全帧进行人脸表情识别。在CK+和MMI人脸表情数据库上进行了实验,所提的序列帧定位模型的定位平均准确率分别达到98.31%和98.08%;利用VGG16模型与ResNet50模型对定位的完全帧进行表情识别,在两个数据库上的实验结果分别达到了96.32%和96.5%,87.23%和87.88%,结果表明所提出的模型能够获取可靠的表情完全帧,并取得了令人满意的人脸表情识别效果。
-
关键词
人脸表情序列
嵌入网络
完全帧定位
特征向量
人脸表情识别
-
Keywords
facial expression sequence
embedding network
fully frame position
feature vector
facial expression recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于正弦注意力表征网络的环境声音识别
被引量:5
- 3
-
-
作者
彭宁
陈爱斌
周国雄
陈文洁
刘晶
-
机构
中南林业科技大学人工智能应用研究所
中南林业科技大学智慧物流技术湖南省重点实验室
中南林业科技大学计算机与信息工程学院
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2021年第4期641-649,共9页
-
基金
中南林业科技大学研究生科技创新基金(No.CX20192014)资助。
-
文摘
将正弦注意力表征网络引入环境声音识别,首先提取梅尔频率倒谱系数(Melfrequency cepstral coefficient,MFCC)作为音频识别特征,使用门控循环单元提取MFCC每一帧的特征,根据正弦函数激活每一帧音频得分,并依照每一帧的音频得分为音频重新分配权重,从而将注意力集中在音频重点区域。最后结合全连接层和Softmax分类器对环境声音类别进行判别。实验在公开数据集Urban Sound 8K上验证并与其他模型对比,结果表明所提出模型效果最好,在数据集上的识别率高达93.5%。
-
关键词
环境声音识别
注意力机制
梅尔频率倒谱系数
门控循环单元
正弦注意力表征网络
-
Keywords
environment sound recognition
attention mechanism
Mel-frequency cepstral coefficient(MFCC)
gated recurrent unit(GRU)
attention sinusoidal representation network(A-SIREN)
-
分类号
TN912
[电子电信—通信与信息系统]
-
-
题名基于双层路由注意力和自校准卷积的豹个体识别
- 4
-
-
作者
杨婉
陈爱斌
赵莹
武阅
甑鑫
肖治术
-
机构
中南林业科技大学人工智能应用研究所
-
出处
《应用科学学报》
2025年第2期348-360,共13页
-
基金
国家自然科学基金(No.62276276)
湖南省自然科学基金(No.2024JJ5647)资助。
-
文摘
自然环境中豹的图像在用于个体识别任务时,个体与环境融合度高、类间相似性高这两个因素会导致识别困难,为此结合自校准卷积和双层路由注意力,提出了一种改进的EfficientNet模型。自校准卷积能够自适应地在每个空间位置周围构建远程空间和通道间的依赖关系,并显式地结合更丰富的信息来增强对细节特征的识别能力,解决了类间相似性高带来的识别难题。双层路由注意力结合自顶向下的全局注意力和自底向上的局部注意力,解决了个体与环境融合度高的问题。实验结果显示,改进后的模型在豹个体识别任务上的准确率达到了95.56%,显著高于原始的EfficientNet模型,证明了所提出的模型在处理豹个体识别任务上的有效性和先进性。
-
关键词
个体识别
自校准卷积
双层路由注意力
深度学习
自建数据集
-
Keywords
individual recognition
self-calibrating convolution
bi-level routing attention
deep learning
self-built data set
-
分类号
TP391.4
[自动化与计算机技术]
-