-
题名融合多模态特征的新闻短视频分类模型
被引量:5
- 1
-
-
作者
曾祥玖
刘达维
刘逸凡
赵志滨
柳秀梅
任酉贵
-
机构
东北大学计算机科学与工程学院
辽宁省自然资源事务服务中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第14期107-113,共7页
-
基金
全国高等院校计算机基础教育研究会计算机基础教育教学研究项目(2022-AFCEC-236)。
-
文摘
视频分类是理解、归纳和检索视频数据的一个重要环节。新闻短视频具有音频信息比图像信息更能完整地描述新闻事件的特点,但传统视频分类模型常常只考虑图像信息或融合了音频和图像的多模态信息,并没有考虑模态信息之间的主辅关系。针对上述问题,采用以音频模态为主,图像模态为辅的融合机制,提出了融合多模态特征的新闻短视频分类模型。为进一步利用音频为主的特点,采用两阶段训练方式,使用音频模态单独训练,音频和图像模态联合训练,利用图像信息修正分类结果,提升新闻短视频分类的准确率。为训练和评价模型,采集了10304个新闻联播短视频作为实验数据集,总时长约为240 h。实验结果表明,所提模型的分类效果优于传统的新闻短视频分类模型。
-
关键词
音画关系
多模态特征融合
新闻短视频分类
-
Keywords
audio-visual relationship
multimodal feature fusion
news short video classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名新闻类短视频关键帧摘要模型的研究与实现
被引量:1
- 2
-
-
作者
崔晓丹
刘达维
刘逸凡
赵志滨
任酉贵
闫永明
-
机构
东北大学计算机科学与工程学院
辽宁省自然资源事务服务中心
沈阳帝信人工智能产业研究院有限公司
-
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第8期182-189,共8页
-
文摘
根据传播学的“声画关系”理论,新闻类短视频通过音频直接有效地传达视频内容,属于典型的“主声说”视频。现有视频摘要技术忽略了声画关系对视频内容表现的影响,导致其在特定类型短视频摘要任务中效果不稳定。针对新闻类短视频“主声”的特点,提出基于多模态特征语义相似性的新闻类短视频关键帧摘要模型。与传统融合模型不同,该模型在提取多模态特征的基础上,构建公共语义空间,通过最小化对比损失函数对图像-文本对进行联合训练,实现音频文本摘要与视频帧之间语义相似性的跨模态度量,在摘要生成任务中重点关注与音频中语义信息描述一致的图像内容,利用音频中的语义信息筛选相关关键帧,得到更准确的短视频摘要。采集450条CCTV新闻短视频和385条Bilibili自媒体新闻短视频组成实验数据集,使用F1值衡量不同模型的性能,实验结果表明,该模型在2个数据集上F1值分别达到62.8%和51.2%,相较于MSVA模型分别提升了2.1和0.8个百分点,在新闻类短视频关键帧摘要任务中具有更好的性能。
-
关键词
声画关系
主声说
多模态特征
语义相似性
关键帧摘要
-
Keywords
sound and picture relationship
voice-dominated theory
multimodal feature
semantic similarity
key frame summarization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于孪生网络的小样本目标检测算法
被引量:1
- 3
-
-
作者
姜钧舰
刘达维
刘逸凡
任酉贵
赵志滨
-
机构
东北大学计算机科学与工程学院
辽宁省自然资源事务服务中心
-
出处
《计算机应用》
CSCD
北大核心
2023年第8期2325-2329,共5页
-
基金
国家自然科学基金资助项目(U1811261)。
-
文摘
基于深度学习的目标检测算法如YOLO(YouOnlyLookOnce)和FasterR-CNN(FasterRegionConvolutional Neural Network)需要大量训练数据以保证模型的精度,而在很多场景下获取数据以及标注数据的成本较高;并且由于缺少海量的训练数据,导致检测的范围受限。针对以上问题,提出了一种基于孪生网络的小样本目标检测算法(SiamDet),旨在使用少量标注图像训练具有一定泛化能力的目标检测模型。首先,提出了基于深度可分离卷积的孪生网络,并使用深度可分离卷积设计了特征提取网络ResNet-DW,从而解决了样本不充足带来的过拟合问题;其次,基于孪生网络,提出了目标检测算法SiamDet,并在ResNet-DW的基础上,引入区域建议网络(RPN)来定位感兴趣目标;然后,引入二值交叉熵损失进行训练,并使用对比训练策略,从而增加了类别之间的区分度。实验结果表明,SiamDet在小样本条件下具有良好的目标检测能力,且相较于次优的算法DeFRCN(Decoupled Faster R-CNN),SiamDet在MS-COCO数据集20-way 2-shot和PASCAL VOC数据集5-way 5-shot上的AP50分别增加了4.1%和2.6%。
-
关键词
目标检测
小样本学习
孪生网络
深度可分离卷积
对比训练
-
Keywords
object detection
few-shot learning
Siamese network
depthwise separable convolution
contrast training
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-