期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种改进的Faster R-CNN遥感图像多目标检测模型研究
1
作者 苗茹 李祎 +3 位作者 周珂 张俨娜 常然然 孟更 《计算机工程》 北大核心 2025年第8期292-304,共13页
针对遥感图像背景复杂、目标种类多和尺度差异大所造成的目标漏检和误检问题,提出一种改进Faster R-CNN多目标检测模型。首先,采用Swin Transformer来替代ResNet 50骨干网络,增强模型特征提取能力;其次,添加平衡特征金字塔(BFP)模块融... 针对遥感图像背景复杂、目标种类多和尺度差异大所造成的目标漏检和误检问题,提出一种改进Faster R-CNN多目标检测模型。首先,采用Swin Transformer来替代ResNet 50骨干网络,增强模型特征提取能力;其次,添加平衡特征金字塔(BFP)模块融合浅层和高层语义信息,进一步加强特征融合效果;最后,在分类和回归分支中,添加动态权重机制,促进网络在训练过程中更关注高质量候选框,提高目标定位和分类的精确度。在RSOD数据集上的实验结果表明,所提模型相较于Faster R-CNN模型每秒浮点运算次数(FLOPs)大幅度减少,并且模型的mAP@0.5∶0.95提高了10.7百分点,平均召回率提高10.6百分点。相较于其他主流检测模型,所提模型在降低漏检率的同时,取得了更高的精度,能显著提高复杂背景下遥感图像的检测精度。 展开更多
关键词 遥感图像 多目标检测 Faster R-CNN Swin Transformer模块 平衡特征金字塔 动态权重机制
在线阅读 下载PDF
基于多模态视听融合的Transformer语音识别算法研究 被引量:2
2
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 TRANSFORMER 动态权重分配机制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部