期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于多模态记忆知识的密集视频描述方法
1
作者 方豪杰 李永刚 +1 位作者 曹宗瑞 叶利华 《电信科学》 北大核心 2025年第9期133-151,共19页
密集视频描述旨在从未修剪的视频中定位事件,并为每个有意义的事件生成相应的描述。现有方法主要利用源视频输入来生成描述,无法捕捉到视频中的隐含知识,即视频中隐含的视觉、音频、文本等多模态记忆知识,其中多模态记忆知识可以理解为... 密集视频描述旨在从未修剪的视频中定位事件,并为每个有意义的事件生成相应的描述。现有方法主要利用源视频输入来生成描述,无法捕捉到视频中的隐含知识,即视频中隐含的视觉、音频、文本等多模态记忆知识,其中多模态记忆知识可以理解为视频内对象、动作和属性对应的有意义词集合。为解决该问题,提出了基于多模态记忆知识的密集视频描述方法,不仅利用了视频本身的多模态信息,还拓展了与视频相关的多模态记忆知识,极大地提高了密集视频描述生成的准确性。首先,该方法构建了多模态记忆知识库,设计了基于模态共享编码器的事件定位模块,实现源视频多模态特征之间的深层次融合并生成高质量事件提案。然后,模型从多模态记忆知识库中检索与候选事件提案密切相关的视觉、音频和文本记忆知识作为描述生成的先验信息。最后,该方法通过记忆增强解码器,有效地整合了多模态记忆知识和视频多模态信息,生成详细的密集视频描述。在ActivityNetCaptions和YouCook2数据集上进行了对比实验和消融实验,结果验证了该方法的有效性。 展开更多
关键词 密集视频描述 多模态记忆知识 记忆增强解码器 交叉注意力
在线阅读 下载PDF
一种优化的MobileNet模型在钼矿识别中的研究
2
作者 郭乾明 周才英 +2 位作者 占新龙 叶晓朗 魏远旺 《有色金属科学与工程》 北大核心 2025年第2期287-296,共10页
针对目前仍然存在部分矿山筛选尾矿是工人手选的现状,本文提出了一种基于优化MobileNetV2模型的深度学习钼矿识别方法,该方法提升了钼矿在X射线照射下所得的灰度图像的识别精度与效率。构建了一个自标注的钼矿灰度图像数据集,并且对图... 针对目前仍然存在部分矿山筛选尾矿是工人手选的现状,本文提出了一种基于优化MobileNetV2模型的深度学习钼矿识别方法,该方法提升了钼矿在X射线照射下所得的灰度图像的识别精度与效率。构建了一个自标注的钼矿灰度图像数据集,并且对图像进行了预处理和归一化。在MobileNetV2架构的基础上,进行了创新和改进,引入了坐标注意力机制(Coordinate Attention,CA),通过调整宽度因子和L2正则化参数,在增强模型特征提取能力和泛化能力的同时减少了训练时间。实验结果表明,与原始的MobileNetV2模型相比,本方法在钼矿识别任务上的准确率提升了3.5%,同时训练时间得到了显著减少,与几种典型卷积神经网络架构如ResNet50、EfficientNetB0、VGG16等相比,本模型在准确率、参数量、训练时间等多个关键指标上均展现出了显著优势。 展开更多
关键词 钼矿识别 MobileNetV2 CA注意力机制 宽度因子 L2正则化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部