基于以物体为中心扩散的组成式场景建模

Compositional Scene Modeling with Object-centric Diffusion

在线阅读下载PDF

导出

摘要以物体为中心的学习方法旨在以组成式的方式对场景进行解析与建模,并提取场景中物体的表示.早期以物体为中心的学习方法通常使用简单的像素混合解码器来建模场景.然而,这些方法在处理复杂的合成数据集和真实世界数据集时通常表现不佳.相比之下,最近的一些以物体为中心的学习方法已经开始尝试使用结构更为复杂的解码器(例如自回归Transformer和扩散模型)来更有效地提取物体表示并建模场景.尽管这些近期的方法相比于早期的方法具有更好的效果,但这些方法采用的非组成式建模方法与人类的直觉相悖,且它们无法根据物体的表示生成对应的物体图像.为了解决这个问题,本文提出了以物体为中心的扩散(object-centric diffusion,OCD)模型,OCD使用一种改进的扩散模型作为解码器,在重构场景的过程中分别生成物体的外观和掩码,从而在保证模型效果的同时实现图像的组成式建模.大量的实验证明,OCD在多种数据集(包括两个合成数据集和两个真实世界数据集)上的图像分割和生成任务中表现出色,证明了其普适性和有效性. Object-centric learning methods aim to parse and model scenes in a compositional way while extracting representations of objects within those scenes.Early object-centric approaches typically employ simple pixel-mixing decoders for scene modeling.However,these methods often perform poorly when handling complex synthetic datasets and real-world datasets.In contrast,recent object-centric learning methods have begun experimenting with more complex decoders,such as autoregressive Transformers and diffusion models,to extract object representations and model scenes more effectively.Despite the improved performance of these newer methods over earlier ones,their non-compositional modeling approaches contradict human intuition and fail to generate corresponding object images given object representations.To address this issue,the proposed object-centric diffusion(OCD)model employs an improved diffusion model as a decoder.OCD generates the appearance and masks of objects separately during the scene reconstruction process,achieving true compositional modeling while maintaining model performance.Extensive experiments demonstrate that OCD excels in image segmentation and generation tasks across various datasets,including two synthetic and two real-world datasets,proving its versatility and effectiveness.

作者沈知萌黄尹璇 SHEN Zhi-Meng;HUANG Yin-Xuan(School of Computer Science,Fudan University,Shanghai 200433,China;Shanghai Key Laboratory of Intelligent Information Processing,Fudan University,Shanghai 200433,China)

机构地区复旦大学计算机科学技术学院复旦大学上海市智能信息处理重点实验室

出处《计算机系统应用》 2025年第8期80-92,共13页 Computer Systems & Applications

基金上海市科学技术委员会项目(22511105000) 上海市类脑芯片与片上智能系统研发与转化功能型平台(17DZ2260900)。

关键词以物体为中心的学习无监督学习组成式场景建模扩散模型生成模型 object-centric learning(OCL) unsupervised learning compositional scene modeling diffusion model generative model

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

作者简介通信作者:沈知萌,E-mail:zmshen22@m.fudan.edu.cn。

引文网络
相关文献

参考文献3

1聂晖,王瑞平,陈熙霖.开放世界物体识别与检测系统:现状、挑战与展望[J].计算机研究与发展,2024,61(9):2128-2141. 被引量：1
2徐梓雄,郭璠,王宗雨,唐琎.基于多视角学习策略的手部姿态估计[J].计算机系统应用,2023,32(10):22-33. 被引量：3
3陈国军,付云鹏,于丽香,崔涛.自适应多尺度特征融合的单目图像深度估计[J].计算机系统应用,2024,33(7):121-128. 被引量：2

二级参考文献2

1高菲,杨柳,李晖.开放集识别研究综述[J].南京大学学报（自然科学版）,2022,58(1):115-134. 被引量：12
2廖志伟,金兢,张超凡,杨学志.基于分层压缩激励的ASPP网络单目深度估计[J].图学学报,2022,43(2):214-222. 被引量：5

共引文献3

1李芳杰,高明,杨玉真,温军玲.人工智能在中医穴位定位技术中的应用探析[J].上海中医药杂志,2024,58(2):17-22. 被引量：11
2尧伟.基于深度学习优化的单目图像深度估计算法分析[J].集成电路应用,2024,41(11):28-29. 被引量：1
3苗诗雨,赵佳玥,杨元祯,张朝阳,黄菁,鲁珊珊,李湘,袁若愚,李若雨,阳伟红.基于人工智能的针灸临床诊疗技术研究进展[J].上海中医药杂志,2025,59(8):1-6.

1李扬,李现国,苗长云,徐晟.基于双分支通道先验和Retinex的低照度图像增强算法[J].吉林大学学报(工学版),2025,55(3):1028-1036.
2王自力,高鋆添,杨德真,刘烨炀,任羿.智能系统可靠性仿真测试与验证技术:前沿进展与挑战[J].系统仿真学报,2025,37(7):1583-1606.
3罗辑.AI赋能传统文化现代化表达研究[J].传媒,2025(14):60-62.
4杜德慧,叶振,郑成行,朱珍珍,李家蕴.面向自动驾驶系统的场景建模及边缘关键场景生成[J].软件学报,2025,36(8):3512-3530.
5徐记全,肖玉峰.基于Carla和Unreal Engine的露天矿无人驾驶场景建模与仿真研究[J].露天采矿技术,2025,40(4):50-54.
6翟健丰,高琦,吴春阳,张金龙,李文琪.面向知识服务的机械产品设计场景建模[J].组合机床与自动化加工技术,2025(8):61-66.
7李林洪,梁彦刚,黎克波,王嘉欣.ATK驱动的HEO卫星同步带巡视场景构建与轨道机动协同设计[J].国防科技大学学报,2025,47(4):52-63.
8韩闯,付瑞雪,周钰森,阙文戈.基于人工智能的生成式心电数据增强方法研究综述[J].计算机工程与应用,2025,61(16):64-75.
9Yuhang Ding,Xinjiang Chen,Guangchun Ruan,Gengyin Li,Ming Zhou,Jiang Dai,Jianxiao Wang.Sharing Mobilized Energy Storage for Temporal-spatial Coordination of Transportation and Power Systems[J].Journal of Modern Power Systems and Clean Energy,2025,13(3):892-903.

计算机系统应用

2025年第8期

浏览历史

内容加载中请稍等...

基于以物体为中心扩散的组成式场景建模

参考文献3

二级参考文献2

共引文献3

相关作者

相关机构

相关主题

浏览历史