针对拥挤场景下的尺度变化导致人群计数任务中精度较低的问题,提出一种基于多尺度注意力网络(MANet)的密集人群计数模型。通过构建多列模型以捕获多尺度特征,促进尺度信息融合;使用双注意力模块获取上下文依赖关系,增强多尺度特征图的信...针对拥挤场景下的尺度变化导致人群计数任务中精度较低的问题,提出一种基于多尺度注意力网络(MANet)的密集人群计数模型。通过构建多列模型以捕获多尺度特征,促进尺度信息融合;使用双注意力模块获取上下文依赖关系,增强多尺度特征图的信息;采用密集连接重用多尺度特征图,生成高质量的密度图,之后对密度图积分得到计数。此外,提出一种新的损失函数,直接使用点注释图进行训练,以减少由高斯滤波生成新的密度图而带来的额外的误差。在公开人群数据集ShanghaiTech Part A/B、UCF-CC-50、UCF-QNRF上的实验结果均达到了最优,表明该网络可以有效处理拥挤场景下的目标多尺度,并且生成高质量的密度图。展开更多
【目的】为解决群养环境下生猪音频难以分离与识别的问题,提出基于欠定盲源分离与E C A-EfficientNetV2的生猪状态音频识别方法。【方法】以仿真群养环境下4类生猪音频信号作为观测信号,将信号稀疏表示后,通过层次聚类估计出信号混合矩...【目的】为解决群养环境下生猪音频难以分离与识别的问题,提出基于欠定盲源分离与E C A-EfficientNetV2的生猪状态音频识别方法。【方法】以仿真群养环境下4类生猪音频信号作为观测信号,将信号稀疏表示后,通过层次聚类估计出信号混合矩阵,并利用lp范数重构算法求解lp范数最小值以完成生猪音频信号重构。将重构信号转化为声谱图,分为进食声、咆哮声、哼叫声和发情声4类,利用ECA-EfficientNetV2网络模型识别音频,获取生猪状态。【结果】混合矩阵估计的归一化均方误差最低为3.266×10^(−4),分离重构的音频信噪比在3.254~4.267 dB之间。声谱图经ECA-EfficientNetV2识别检测,准确率高达98.35%;与经典卷积神经网络ResNet50和VGG16对比,准确率分别提升2.88和1.81个百分点;与原EfficientNetV2相比,准确率降低0.52个百分点,但模型参数量减少33.56%,浮点运算量(FLOPs)降低1.86 G,推理时间减少9.40 ms。【结论】基于盲源分离及改进EfficientNetV2的方法,轻量且高效地实现了分离与识别群养生猪音频信号。展开更多
文摘针对拥挤场景下的尺度变化导致人群计数任务中精度较低的问题,提出一种基于多尺度注意力网络(MANet)的密集人群计数模型。通过构建多列模型以捕获多尺度特征,促进尺度信息融合;使用双注意力模块获取上下文依赖关系,增强多尺度特征图的信息;采用密集连接重用多尺度特征图,生成高质量的密度图,之后对密度图积分得到计数。此外,提出一种新的损失函数,直接使用点注释图进行训练,以减少由高斯滤波生成新的密度图而带来的额外的误差。在公开人群数据集ShanghaiTech Part A/B、UCF-CC-50、UCF-QNRF上的实验结果均达到了最优,表明该网络可以有效处理拥挤场景下的目标多尺度,并且生成高质量的密度图。