期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
结构与纹理分解的多尺度3D解耦卷积视频预测
1
作者 郑明魁 吴孔贤 +2 位作者 邱鑫涛 郑海峰 赵铁松 《计算机学报》 北大核心 2025年第8期1832-1847,共16页
视频预测旨在利用历史帧预测未来图像帧,是一项逐像素的密集预测任务。目前的非自回归模型采用多帧输入多帧输出的架构,有效避免了误差累积。针对现有方法在对视频数据降维处理时使用跨步卷积进行下采样而导致局部细节丢失的问题,本文... 视频预测旨在利用历史帧预测未来图像帧,是一项逐像素的密集预测任务。目前的非自回归模型采用多帧输入多帧输出的架构,有效避免了误差累积。针对现有方法在对视频数据降维处理时使用跨步卷积进行下采样而导致局部细节丢失的问题,本文采用了特征域结构与纹理分离学习的思路,去除细节后的低频结构信息具有更强的时间相关性,有利于局部区域结构像素时空相关性的预测,而高频细节特征则采用一个独立的增强模块进行学习。在此基础上,本文设计了一种多尺度的3D解耦卷积模块,将3D卷积解耦为2D卷积和1D卷积来专注学习低频结构的空间和时间特性,这种解耦方式在提高对象形态预测性能的同时还减少了模型参数和内存消耗。最后采用一种高频细节小尺度增强模块,用来学习分解后的高频信息并预测图像的纹理,提升视频预测的细节质量。在合成数据以及真实场景数据集上的实验结果表明,本文所设计的算法兼顾了时空一致性和细节表现力,在视频中运动物体的整体结构与局部细节预测方面展现出更高的准确性,其中在Moving MNIST数据集上的MSE为15.7,分别比现有算法如SimVP、TAU、SwinLSTM、VMRNN等降低了34.0%、20.7%、11.3%、4.8%,在其他数据集上的实验结果也表现出一定的优越性。 展开更多
关键词 视频预测 多帧输入多帧输出 结构与纹理分离 3D解耦卷积
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部