-
题名一种残差置乱上下文信息的场景图生成方法
被引量:3
- 1
-
-
作者
林欣
田鑫
季怡
徐云龙
刘纯平
-
机构
苏州大学计算机科学与技术学院
苏州大学应用技术学院
符号计算与知识工程教育部重点实验室(吉林大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第8期1721-1730,共10页
-
基金
国家自然科学基金项目(61773272,61272258,61301299)
吉林大学符号计算与知识工程教育部重点实验室项目(93K172016K08)
江苏高校优势学科建设工程资助项目~~
-
文摘
场景图在视觉理解中有着很重要的作用.现有的场景图生成方法对于主语、宾语以及主宾语间的视觉关系进行研究.但是,人类通过空间关系上下文、语义上下文和目标之间的互动信息来进行关系的理解和推理.为了获得更好的全局上下文表示,同时减少数据集偏差的影响,提出了一个新的场景图生成框架RSSQ(residual shuffle sequence model).该框架由目标解码、残差置乱和位置嵌入3部分构成.残差置乱模块由随机置乱和残差连接的双向LSTM的基本结构叠加而成,利用迭代方式实现随机打乱双向LSTM的隐藏状态以减少数据集偏差影响,利用残差连接提取共享的全局上下文信息.在位置嵌入模块中,通过对目标的相对位置和面积比例的编码则可以增强目标对之间的空间关系.在数据集Visual Genome的3个不同层次子任务的实验中,证明了提出的RSSQ方法因全局上下文改善和空间关系增强,在Recall@50和Recall@100指标评价下,相对于现有方法能生成更好的场景图.
-
关键词
场景图
视觉关系
上下文
残差双向lstm
目标检测
-
Keywords
scene graph
visual relationship
context
residual bidirectional lstm
object detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-