-
题名采用多视角注意力的声音事件定位与检测
被引量:1
- 1
-
-
作者
杨吉斌
黄翔
张雄伟
张强
梅鹏程
-
机构
陆军工程大学指挥控制工程学院
[
-
出处
《信号处理》
CSCD
北大核心
2024年第2期385-395,共11页
-
基金
国家自然科学基金(61471394,62071484)
校基础前沿科技创新项目(KYZYJKQTZQ23001)。
-
文摘
近年来,基于深度学习的方法有效改进了声音事件定位与检测的性能,但当场景中存在多声源重叠时,准确的声源时空信息估计依然较为困难,声音事件定位与检测的性能存在较大提升空间。为充分挖掘多通道深层表示所包含的关键信息,本文提出了一种多视角注意力网络模型MVANet(Multi-View Attention Network)。首先,引入软参数共享网络架构实现不同任务之间的交互学习,计算多通道深层表示,在对比不同通道注意力结构的基础上,选择了一种轻量级的高效通道注意力模块ECA(Efficient Channel Attention)与多头自注意力模块MHSA(Multi-Head Self-Attention)结合,从通道、时间、频率三个视角关注深层表示中的关键特征,丰富高维特征信息。其次,对比了ECA模块和软参数共享架构在MVANet不同位置上的性能,确定了ECA模块和软参数共享在模型上的最佳实现位置,最大程度上提高模型对特征的挖掘能力。仿真结果表明,对于包含同类别重叠声事件的TAU-NIGENS Spatial Sound Events 2020数据集,本文提出的MVANet模型相比较于基线方法,检测和定位性能均得到了改善。在多声源场景下,检测错误率下降了0.03,定位误差下降了1.5°。
-
关键词
声音事件定位与检测
深度学习
多视角注意力
通道注意力
多头自注意力
-
Keywords
sound event localization and detection
deep learning
multi-view attention
channel attention
multihead self-attention
-
分类号
TP37
[自动化与计算机技术—计算机系统结构]
-
-
题名多视角解耦增强整合的细粒度分类算法
- 2
-
-
作者
孟月波
王博
刘光辉
-
机构
西安建筑科技大学信息与控制工程学院
西安市建筑制造智能化技术重点实验室
-
出处
《高技术通讯》
北大核心
2024年第12期1266-1278,共13页
-
基金
国家自然科学基金(52278125)资助项目。
-
文摘
针对细粒度图像分类中由于背景环境、光照条件、样本姿态和拍摄角度等外部因素导致类内差异显著增加的问题,本文提出了多视角解耦增强整合的细粒度分类算法。首先,为了降低图像中外部因素的干扰,设计多视角注意力(MPA)模块,此模块通过将模型分解为数个视角,迫使每个视角关注不同尺度,实现干扰因素的解耦,并通过对特征进行自注意力建模,引导各个视角进一步挖掘关键特征。其次,提出递进式动态加权融合(PDWF)策略,旨在有效整合解耦后的多个视角信息,该策略通过获取不同视角下通道和空间关系动态调整融合系数,实现多尺度信息的高阶融合。最后,采用递进式训练方法促进视角交互,进一步捕获和整合多尺度特征的互补语义信息。在CUB-200-2011、StanfordCars、FGVC-Aircraft公开数据集上进行实验,实验结果表明所提方法分类准确率分别达到90.5%、95.5%和94.2%,优于当前细粒度图像分类任务主流方法。
-
关键词
细粒度
多视角注意力(MPA)
递进式动态加权融合(PDWF)
图像分类
-
Keywords
fine-grained
multi-perspective attention(MPA)
progressive dynamic weighted fusion(PDWF)
image classification
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多角度交叉注意力机制的知识库问答方法
被引量:2
- 3
-
-
作者
代发扬
符海东
高峰
顾进广
-
机构
武汉科技大学计算机科学与技术学院
湖北省智能信息处理与实时工业系统重点实验室
武汉科技大学大数据科学与工程研究院
新闻出版署富媒体数字出版内容组织与知识服务重点实验室
-
出处
《计算机应用与软件》
北大核心
2023年第12期33-40,共8页
-
基金
国家自然科学基金项目(U1836118,61673304)
国家社科基金重大计划项目(11&ZD189)
湖北省自然科学基金项目(2018CFB194)。
-
文摘
近些年知识库问答的方法通常利用多视角信息来表示候选答案,忽略了这些信息间的相互影响,将问题的单词与候选答案的多视角信息计算相关性,忽略了二者在整体与细节上的信息。基于上述问题,提出一个多角度交叉注意力模型,通过多视角交叉注意力机制获取候选答案多视角信息间的交叉影响;将问题与候选答案信息进行整体表示,运用双向交叉注意力机制来计算其二者在整体级别上的关联性,最终提高获取答案的正确率。利用FreeBase知识库与WebQuestions数据集进行实验,F1值达到55.84%,优于最近表现较好的方法。
-
关键词
知识库问答
多视角信息
多视角交叉注意力机制
双向交叉注意力机制
-
Keywords
Question answering over knowledge base
Multi-view information
Multi-view cross-attention mechanism
Two-way cross-attention mechanism
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-