期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种改进的Faster R-CNN遥感图像多目标检测模型研究
1
作者
苗茹
李祎
+3 位作者
周珂
张俨娜
常然然
孟更
《计算机工程》
北大核心
2025年第8期292-304,共13页
针对遥感图像背景复杂、目标种类多和尺度差异大所造成的目标漏检和误检问题,提出一种改进Faster R-CNN多目标检测模型。首先,采用Swin Transformer来替代ResNet 50骨干网络,增强模型特征提取能力;其次,添加平衡特征金字塔(BFP)模块融...
针对遥感图像背景复杂、目标种类多和尺度差异大所造成的目标漏检和误检问题,提出一种改进Faster R-CNN多目标检测模型。首先,采用Swin Transformer来替代ResNet 50骨干网络,增强模型特征提取能力;其次,添加平衡特征金字塔(BFP)模块融合浅层和高层语义信息,进一步加强特征融合效果;最后,在分类和回归分支中,添加动态权重机制,促进网络在训练过程中更关注高质量候选框,提高目标定位和分类的精确度。在RSOD数据集上的实验结果表明,所提模型相较于Faster R-CNN模型每秒浮点运算次数(FLOPs)大幅度减少,并且模型的mAP@0.5∶0.95提高了10.7百分点,平均召回率提高10.6百分点。相较于其他主流检测模型,所提模型在降低漏检率的同时,取得了更高的精度,能显著提高复杂背景下遥感图像的检测精度。
展开更多
关键词
遥感图像
多目标检测
Faster
R-CNN
Swin
Transformer模块
平衡特征金字塔
动态权重机制
在线阅读
下载PDF
职称材料
基于多模态视听融合的Transformer语音识别算法研究
被引量:
2
2
作者
赵小芬
彭朋
《传感器与微系统》
北大核心
2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分...
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。
展开更多
关键词
多模态
视听融合
语音识别
TRANSFORMER
动态
权重
分配
机制
在线阅读
下载PDF
职称材料
题名
一种改进的Faster R-CNN遥感图像多目标检测模型研究
1
作者
苗茹
李祎
周珂
张俨娜
常然然
孟更
机构
河南大学计算机与信息工程学院
河南省空间信息处理工程研究中心
河南省时空大数据技术创新中心
出处
《计算机工程》
北大核心
2025年第8期292-304,共13页
基金
高分辨率对地观测系统国家科技重大专项(民用部分)科研项目(80-Y50G19-9001-22/23)
河南省科技攻关项目(222102210061)。
文摘
针对遥感图像背景复杂、目标种类多和尺度差异大所造成的目标漏检和误检问题,提出一种改进Faster R-CNN多目标检测模型。首先,采用Swin Transformer来替代ResNet 50骨干网络,增强模型特征提取能力;其次,添加平衡特征金字塔(BFP)模块融合浅层和高层语义信息,进一步加强特征融合效果;最后,在分类和回归分支中,添加动态权重机制,促进网络在训练过程中更关注高质量候选框,提高目标定位和分类的精确度。在RSOD数据集上的实验结果表明,所提模型相较于Faster R-CNN模型每秒浮点运算次数(FLOPs)大幅度减少,并且模型的mAP@0.5∶0.95提高了10.7百分点,平均召回率提高10.6百分点。相较于其他主流检测模型,所提模型在降低漏检率的同时,取得了更高的精度,能显著提高复杂背景下遥感图像的检测精度。
关键词
遥感图像
多目标检测
Faster
R-CNN
Swin
Transformer模块
平衡特征金字塔
动态权重机制
Keywords
remote sensing images
multi-object detection
Faster R-CNN
Swin Transformer module
Balanced Feature Pyramid(BFP)
dynamic weighting mechanism
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于多模态视听融合的Transformer语音识别算法研究
被引量:
2
2
作者
赵小芬
彭朋
机构
西京学院计算机学院
陕西科技大学电气与控制工程学院
出处
《传感器与微系统》
北大核心
2025年第2期48-52,共5页
基金
国家自然科学基金资助项目(52173263)
陕西省自然科学基金青年项目(2022JQ-601)
西京学院科研基金资助项目(XJ230201)。
文摘
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。
关键词
多模态
视听融合
语音识别
TRANSFORMER
动态
权重
分配
机制
Keywords
multimodal
audio-visual fusion
speech recognition
Transformer
dynamic weight allocation mecha-nism
分类号
TN912.3 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种改进的Faster R-CNN遥感图像多目标检测模型研究
苗茹
李祎
周珂
张俨娜
常然然
孟更
《计算机工程》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于多模态视听融合的Transformer语音识别算法研究
赵小芬
彭朋
《传感器与微系统》
北大核心
2025
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部