-
题名结构与纹理分解的多尺度3D解耦卷积视频预测
- 1
-
-
作者
郑明魁
吴孔贤
邱鑫涛
郑海峰
赵铁松
-
机构
福州大学物理与信息工程学院
-
出处
《计算机学报》
北大核心
2025年第8期1832-1847,共16页
-
基金
国家自然科学基金项目(62171134)
福建省科技重大专项专题项目(2022HZ026007)资助。
-
文摘
视频预测旨在利用历史帧预测未来图像帧,是一项逐像素的密集预测任务。目前的非自回归模型采用多帧输入多帧输出的架构,有效避免了误差累积。针对现有方法在对视频数据降维处理时使用跨步卷积进行下采样而导致局部细节丢失的问题,本文采用了特征域结构与纹理分离学习的思路,去除细节后的低频结构信息具有更强的时间相关性,有利于局部区域结构像素时空相关性的预测,而高频细节特征则采用一个独立的增强模块进行学习。在此基础上,本文设计了一种多尺度的3D解耦卷积模块,将3D卷积解耦为2D卷积和1D卷积来专注学习低频结构的空间和时间特性,这种解耦方式在提高对象形态预测性能的同时还减少了模型参数和内存消耗。最后采用一种高频细节小尺度增强模块,用来学习分解后的高频信息并预测图像的纹理,提升视频预测的细节质量。在合成数据以及真实场景数据集上的实验结果表明,本文所设计的算法兼顾了时空一致性和细节表现力,在视频中运动物体的整体结构与局部细节预测方面展现出更高的准确性,其中在Moving MNIST数据集上的MSE为15.7,分别比现有算法如SimVP、TAU、SwinLSTM、VMRNN等降低了34.0%、20.7%、11.3%、4.8%,在其他数据集上的实验结果也表现出一定的优越性。
-
关键词
视频预测
多帧输入多帧输出
结构与纹理分离
3D解耦卷积
-
Keywords
video prediction
multi-frame input and multi-frame output
structure and texture separation
decoupled 3D convolution
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-