-
题名知识引导的视觉关系检测模型
- 1
-
-
作者
王元龙
胡文博
张虎
-
机构
山西大学计算机与信息技术学院
-
出处
《计算机应用》
CSCD
北大核心
2024年第3期683-689,共7页
-
基金
国家自然科学基金资助项目(62176145)。
-
文摘
视觉关系检测(VRD)任务是在目标识别的基础上,进一步检测目标对象之间的关系,属于视觉理解和推理的关键技术。由于对象之间交互组合,容易造成对象间关系组合爆炸的问题,从而产生很多关联性较弱的实体对,导致后续的关系检测召回率较低。针对上述问题,提出知识引导的视觉关系检测模型。首先构建视觉知识,对常见的视觉关系检测数据集中的实体标签和关系标签进行数据分析与统计,得到实体和关系间交互共现频率作为视觉知识;然后利用所构建的视觉知识,优化实体对的组合流程,降低关联性较弱的实体对得分,提升关联性较强的实体对得分,进而按照实体对的得分排序并删除得分较低的实体对,对于实体之间的关系也同样采用知识引导的方式优化关系得分,从而提升模型的召回率。在公开数据集视觉基因库(VG)和VRD中验证所提模型的效果:在谓词分类任务中,与现有模型PE-Net(Prototype-based Embedding Network)相比,在VG数据集上,召回率Recall@50和Recall@100分别提高了1.84和1.14个百分点;在VRD数据集上,相较于Coacher,Recall@20、Recall@50和Recall@100分别提高了0.22、0.32和0.31个百分点。
-
关键词
视觉关系检测
实体对排序
组合爆炸
共现频率
知识引导
-
Keywords
visual relationship detection(vrd)
entity pair ranking
combinatorial explosion
co-occurrence frequency
knowledge guidance
-
分类号
TP391.7
[自动化与计算机技术—计算机应用技术]
-
-
题名基于协同训练的半监督图文关系抽取方法
- 2
-
-
作者
王亚萍
王智强
王元龙
梁吉业
-
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
-
出处
《南京理工大学学报》
CAS
CSCD
北大核心
2024年第4期451-459,共9页
-
基金
国家自然科学基金(61876103,61906111)。
-
文摘
为克服获取大量关系标记样本的昂贵代价,提出基于协同训练的半监督图文关系抽取模型,以利用大量无标记的数据来提升图文关系抽取的准确性。首先,基于图像和文本2种模态构建图像视图和文本语义视图,在标记数据集上训练2种不同视图的分类器;然后,将2种视图下的数据分别交叉输入另一视图的分类器,充分挖掘标记数据和未标记数据的信息,输出更准确的分类结果;最后,2种视图下的分类器对未标记数据进行预测,以输出一致的结果。在公开数据集VRD和VG上的实验结果显示,与6种较新的关系检测方法相比,该文方法图像视图和语义视图参数在VRD数据集上分别提升了2.24%、1.41%,在VG数据集上提升了3.59%。
-
关键词
协同训练
半监督
多模态
关系抽取
视觉关系检测
-
Keywords
co-training
semi-supervised
multimodal
relationship extraction
visual relationship detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名高速隐身目标多传感器协同探测跟踪任务分解策略
被引量:3
- 3
-
-
作者
孙文
王刚
王晶晶
付强
-
机构
空军工程大学防空反导学院
-
出处
《探测与控制学报》
CSCD
北大核心
2021年第1期68-72,共5页
-
基金
国家自然科学基金项目资助(61272011)
国家自然科学青年基金项目资助(61102109)。
-
文摘
针对传统分解策略对高速隐身目标多传感器探测跟踪任务分解存在分解时间长、自适应性低、完备性差等问题,提出了柔性时间任务树分解策略。首先,基于对高速隐身目标多传感器探测跟踪任务分解特点的分析,确立了任务分解的基本准则;然后,以传感器与高速隐身目标的可视化关系为前提和基础,融合“起止时间”、“最长观测时间”、“均匀分割时间”分解法和任务树层次化分解的思想,提出了柔性时间任务树分解策略,该策略能够灵活自适应地调整,对任务进行高效合理地分解;最后,通过案例分析,验证了柔性时间任务树分解策略的合理性和有效性,为未来高速隐身目标探测跟踪任务分配提供了保障。
-
关键词
高速隐身目标
探测跟踪
任务分解
可视化
柔性时间任务树
-
Keywords
HSST
detection and tracking
mission decomposition
visual relationship
flexible time-mission tree
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名人物交互检测研究进展综述
被引量:4
- 4
-
-
作者
龚勋
张志莹
刘璐
马冰
吴昆伦
-
机构
西南交通大学计算机与人工智能学院
西南交通大学唐山研究生院
-
出处
《西南交通大学学报》
EI
CSCD
北大核心
2022年第4期693-704,共12页
-
基金
国家自然科学基金(61876158)
中央高校基本科研业务费专项资金(2682021ZTPY030)。
-
文摘
作为目标检测、行为识别、视觉关系检测的交叉学科,人物交互(human-object interaction,HOI)检测旨在识别特定应用场景下人与物体的相互关系.本文对基于图像的人物交互检测研究成果进行了系统总结及论述.首先,从交互关系建模的原理出发,把人物交互检测方法分为基于全局实例和基于局部实例两类,并对代表性方法进行了详细阐述和分析;进而,根据所采用视觉特征的差异将基于全局实例的方法进行细分,包括融合空间位置信息、融合外观信息与融合人体姿态信息;然后,讨论了零样本学习、弱监督学习以及Transformer模型在人物交互检测中的应用;最后,从交互类别、视觉干扰以及运动视角三方面出发,总结了人物交互检测面临的挑战,并指出领域泛化、实时检测和端到端网络是未来发展的趋势.
-
关键词
人物交互
视觉关系
目标检测
动作识别
-
Keywords
human-object interaction(HOI)
visual relationship
object detection
action recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于标签层次结构的视觉关系检测模型
- 5
-
-
作者
王元龙
雷鸣
王智强
张虎
李茹
梁吉业
-
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2023年第12期3496-3506,共11页
-
基金
国家重点研发计划(No.2020AAA0106100)
国家自然科学基金(No.62176145)。
-
文摘
视觉关系检测是在目标识别的基础上,进一步检测出目标之间的关系,属于视觉理解和推理的关键技术.然而,由于关系标签视觉上的相似性以及数据不平衡问题造成少样本的尾部关系检测召回率较低.为了提高尾部关系的检测效果,本文将关系标签进行粗细粒度划分构建了标签的层次结构表示,提出了基于标签层次结构的视觉关系检测模型.模型利用视觉关系之间的相似性以及数据带有的偏见性构建关系标签的层次结构表示,以此将关系区分为粗粒度关系和细粒度关系,使尾部关系在由粗粒度到细粒度的结构上获得更多的关注.同时,针对标签层次结构的性质设计其损失函数,该损失函数通过结构化信息逐层学习不同类别关系之间的差异,使模型更好的检测尾部细粒度关系.分别在公开数据集Visual Relationship Detection(VRD)和Visual Genome(VG)中验证了本文模型检测尾部关系的效果.与现有模型相比,在VRD数据集中平均召回率mR@20、mR@50和mR@100分别提高了0.62%、1.57%和2.47%;在VG数据集中,mR@20、mR@50和mR@100分别提高了0.67%、0.83%和1.15%.
-
关键词
视觉关系检测
标签层次结构表示
长尾分布
粗粒度关系
细粒度关系
-
Keywords
visual relationship detection
tag hierarchical representation
long-tailed distributions
coarse-grained relationship
fine-grained relationship
-
分类号
TP391.7
[自动化与计算机技术—计算机应用技术]
-
-
题名一种残差置乱上下文信息的场景图生成方法
被引量:3
- 6
-
-
作者
林欣
田鑫
季怡
徐云龙
刘纯平
-
机构
苏州大学计算机科学与技术学院
苏州大学应用技术学院
符号计算与知识工程教育部重点实验室(吉林大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第8期1721-1730,共10页
-
基金
国家自然科学基金项目(61773272,61272258,61301299)
吉林大学符号计算与知识工程教育部重点实验室项目(93K172016K08)
江苏高校优势学科建设工程资助项目~~
-
文摘
场景图在视觉理解中有着很重要的作用.现有的场景图生成方法对于主语、宾语以及主宾语间的视觉关系进行研究.但是,人类通过空间关系上下文、语义上下文和目标之间的互动信息来进行关系的理解和推理.为了获得更好的全局上下文表示,同时减少数据集偏差的影响,提出了一个新的场景图生成框架RSSQ(residual shuffle sequence model).该框架由目标解码、残差置乱和位置嵌入3部分构成.残差置乱模块由随机置乱和残差连接的双向LSTM的基本结构叠加而成,利用迭代方式实现随机打乱双向LSTM的隐藏状态以减少数据集偏差影响,利用残差连接提取共享的全局上下文信息.在位置嵌入模块中,通过对目标的相对位置和面积比例的编码则可以增强目标对之间的空间关系.在数据集Visual Genome的3个不同层次子任务的实验中,证明了提出的RSSQ方法因全局上下文改善和空间关系增强,在Recall@50和Recall@100指标评价下,相对于现有方法能生成更好的场景图.
-
关键词
场景图
视觉关系
上下文
残差双向LSTM
目标检测
-
Keywords
scene graph
visual relationship
context
residual bidirectional LSTM
object detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名结合注意力机制与特征融合的场景图生成模型
被引量:5
- 7
-
-
作者
黄勇韬
严华
-
机构
四川大学电子信息学院
-
出处
《计算机科学》
CSCD
北大核心
2020年第6期133-137,共5页
-
基金
国家自然科学基金项目(61403265)。
-
文摘
视觉场景理解不仅可以孤立地识别单个物体,还可以得到不同物体之间的相互作用关系。场景图可以获取所有的(主语-谓词-宾语)信息来描述图像内部的对象关系,在场景理解任务中应用广泛。然而,大部分已有的场景图生成模型结构复杂、推理速度慢、准确率低,不能在现实情况下直接使用。因此,在Factorizable Net的基础上提出了一种结合注意力机制与特征融合的场景图生成模型。首先把整个图片分解为若干个子图,每个子图包含多个对象及对象间的关系;然后在物体特征中融合其位置和形状信息,并利用注意力机制实现物体特征和子图特征之间的消息传递;最后根据物体特征和子图特征分别进行物体分类和物体间关系推断。实验结果表明,在多个视觉关系检测数据集上,该模型视觉关系检测的准确率为22.78%~25.41%,场景图生成的准确率为16.39%~22.75%,比Factorizable Net分别提升了1.2%和1.8%;并且利用一块GTX1080Ti显卡可以在0.6 s之内实现对一幅图像的物体和物体间的关系进行检测。实验数据充分说明,采用子图结构明显减少了需要进行关系推断的图像区域数量,利用特征融合方法和基于注意力机制的消息传递机制提升了深度特征的表现能力,可以更快速准确地预测对象及其关系,从而有效解决了传统的场景图生成模型时效性差、准确度低的难题。
-
关键词
场景图
视觉关系检测
注意力机制
消息传递
特征融合
-
Keywords
Scene graph
visual relationship detection
Attention mechanism
Message transmission
Feature fusion
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名嵌入视觉关系掩码的多类别金具检测方法
被引量:1
- 8
-
-
作者
王巍
杨耀权
王乾铭
翟永杰
赵振兵
-
机构
华北电力大学自动化系
华北电力大学电子与通信工程系
-
出处
《智能系统学报》
CSCD
北大核心
2023年第3期440-449,共10页
-
基金
国家自然科学基金项目(U21A20486,61871182)
河北省自然科学基金项目(F2021502008).
-
文摘
在对输电线路金具进行检测的过程中,由于受到复杂背景的影响,一些互相遮挡或者特征不明显的金具会隐匿在复杂环境难以精确检测。针对这一问题,提出了基于视觉关系掩码的多类别金具检测模型,通过挖掘和提取输电线路金具之间包含空间信息的视觉关系先验知识,构建视觉关系掩码和视觉关系检测网络,并将先验知识作为辅助信息融入视觉关系模块中,最终实现多类别金具的精确定位与识别。对具有14类金具的数据集进行多种定性和定量实验,结果表明,改进后的模型平均检测精度能提高到76.25%,检测效果也优于其他先进目标检测模型。
-
关键词
目标检测
输电线路
金具
深度学习
视觉关系
先验知识
空间信息
辅助信息
-
Keywords
target detection
transmission line
fittings
deep learning
visual relationship
prior knowledge
spatial information
auxiliary information
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向无人平台的视觉空间关系模型
被引量:1
- 9
-
-
作者
皇甫润南
田江鹏
游雄
屠铱成
-
机构
信息工程大学
[
-
出处
《测绘通报》
CSCD
北大核心
2023年第10期34-39,66,共7页
-
基金
国家自然科学基金重点项目(42130112)。
-
文摘
视觉空间关系是指通过视觉传感器获得的空间关系。当认知主体由人转变为无人平台时,显式地描述与记录空间关系是无人平台实现场景理解和空间推理的关键。本文聚焦无人平台视觉空间关系模型缺失现状,将地图学和机器视觉中关于空间关系的分类、模型和算法进行融合,提出了一种面向无人平台的视觉空间关系模型;构建了融合视觉空间关系模型的数据集,训练视觉空间关系预测模型,比较不同模型的视觉空间关系检测能力,验证了基于视觉空间关系模型所构建数据集的完备性及模型提升视觉关系检测能力的有效性。本文能够改善当前机器视觉领域空间关系不统一的问题,对提高无人平台视觉关系检测、实现空间关系记录和地图模型构建等方面具有一定的研究意义。
-
关键词
视觉空间关系
无人平台
视觉关系检测
时空Transformer
-
Keywords
visual spatial relationship
unmanned platform
visual relationship detection
ST-Transformer
-
分类号
P208
[天文地球—地图制图学与地理信息工程]
-