期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
知识引导的视觉关系检测模型
1
作者 王元龙 胡文博 张虎 《计算机应用》 CSCD 北大核心 2024年第3期683-689,共7页
视觉关系检测(VRD)任务是在目标识别的基础上,进一步检测目标对象之间的关系,属于视觉理解和推理的关键技术。由于对象之间交互组合,容易造成对象间关系组合爆炸的问题,从而产生很多关联性较弱的实体对,导致后续的关系检测召回率较低。... 视觉关系检测(VRD)任务是在目标识别的基础上,进一步检测目标对象之间的关系,属于视觉理解和推理的关键技术。由于对象之间交互组合,容易造成对象间关系组合爆炸的问题,从而产生很多关联性较弱的实体对,导致后续的关系检测召回率较低。针对上述问题,提出知识引导的视觉关系检测模型。首先构建视觉知识,对常见的视觉关系检测数据集中的实体标签和关系标签进行数据分析与统计,得到实体和关系间交互共现频率作为视觉知识;然后利用所构建的视觉知识,优化实体对的组合流程,降低关联性较弱的实体对得分,提升关联性较强的实体对得分,进而按照实体对的得分排序并删除得分较低的实体对,对于实体之间的关系也同样采用知识引导的方式优化关系得分,从而提升模型的召回率。在公开数据集视觉基因库(VG)和VRD中验证所提模型的效果:在谓词分类任务中,与现有模型PE-Net(Prototype-based Embedding Network)相比,在VG数据集上,召回率Recall@50和Recall@100分别提高了1.84和1.14个百分点;在VRD数据集上,相较于Coacher,Recall@20、Recall@50和Recall@100分别提高了0.22、0.32和0.31个百分点。 展开更多
关键词 视觉关系检测 实体对排序 组合爆炸 共现频率 知识引导
在线阅读 下载PDF
基于协同训练的半监督图文关系抽取方法
2
作者 王亚萍 王智强 +1 位作者 王元龙 梁吉业 《南京理工大学学报》 CAS CSCD 北大核心 2024年第4期451-459,共9页
为克服获取大量关系标记样本的昂贵代价,提出基于协同训练的半监督图文关系抽取模型,以利用大量无标记的数据来提升图文关系抽取的准确性。首先,基于图像和文本2种模态构建图像视图和文本语义视图,在标记数据集上训练2种不同视图的分类... 为克服获取大量关系标记样本的昂贵代价,提出基于协同训练的半监督图文关系抽取模型,以利用大量无标记的数据来提升图文关系抽取的准确性。首先,基于图像和文本2种模态构建图像视图和文本语义视图,在标记数据集上训练2种不同视图的分类器;然后,将2种视图下的数据分别交叉输入另一视图的分类器,充分挖掘标记数据和未标记数据的信息,输出更准确的分类结果;最后,2种视图下的分类器对未标记数据进行预测,以输出一致的结果。在公开数据集VRD和VG上的实验结果显示,与6种较新的关系检测方法相比,该文方法图像视图和语义视图参数在VRD数据集上分别提升了2.24%、1.41%,在VG数据集上提升了3.59%。 展开更多
关键词 协同训练 半监督 多模态 关系抽取 视觉关系检测
在线阅读 下载PDF
高速隐身目标多传感器协同探测跟踪任务分解策略 被引量:3
3
作者 孙文 王刚 +1 位作者 王晶晶 付强 《探测与控制学报》 CSCD 北大核心 2021年第1期68-72,共5页
针对传统分解策略对高速隐身目标多传感器探测跟踪任务分解存在分解时间长、自适应性低、完备性差等问题,提出了柔性时间任务树分解策略。首先,基于对高速隐身目标多传感器探测跟踪任务分解特点的分析,确立了任务分解的基本准则;然后,... 针对传统分解策略对高速隐身目标多传感器探测跟踪任务分解存在分解时间长、自适应性低、完备性差等问题,提出了柔性时间任务树分解策略。首先,基于对高速隐身目标多传感器探测跟踪任务分解特点的分析,确立了任务分解的基本准则;然后,以传感器与高速隐身目标的可视化关系为前提和基础,融合“起止时间”、“最长观测时间”、“均匀分割时间”分解法和任务树层次化分解的思想,提出了柔性时间任务树分解策略,该策略能够灵活自适应地调整,对任务进行高效合理地分解;最后,通过案例分析,验证了柔性时间任务树分解策略的合理性和有效性,为未来高速隐身目标探测跟踪任务分配提供了保障。 展开更多
关键词 高速隐身目标 探测跟踪 任务分解 可视化 柔性时间任务树
在线阅读 下载PDF
人物交互检测研究进展综述 被引量:4
4
作者 龚勋 张志莹 +2 位作者 刘璐 马冰 吴昆伦 《西南交通大学学报》 EI CSCD 北大核心 2022年第4期693-704,共12页
作为目标检测、行为识别、视觉关系检测的交叉学科,人物交互(human-object interaction,HOI)检测旨在识别特定应用场景下人与物体的相互关系.本文对基于图像的人物交互检测研究成果进行了系统总结及论述.首先,从交互关系建模的原理出发... 作为目标检测、行为识别、视觉关系检测的交叉学科,人物交互(human-object interaction,HOI)检测旨在识别特定应用场景下人与物体的相互关系.本文对基于图像的人物交互检测研究成果进行了系统总结及论述.首先,从交互关系建模的原理出发,把人物交互检测方法分为基于全局实例和基于局部实例两类,并对代表性方法进行了详细阐述和分析;进而,根据所采用视觉特征的差异将基于全局实例的方法进行细分,包括融合空间位置信息、融合外观信息与融合人体姿态信息;然后,讨论了零样本学习、弱监督学习以及Transformer模型在人物交互检测中的应用;最后,从交互类别、视觉干扰以及运动视角三方面出发,总结了人物交互检测面临的挑战,并指出领域泛化、实时检测和端到端网络是未来发展的趋势. 展开更多
关键词 人物交互 视觉关系 目标检测 动作识别
在线阅读 下载PDF
基于标签层次结构的视觉关系检测模型
5
作者 王元龙 雷鸣 +3 位作者 王智强 张虎 李茹 梁吉业 《电子学报》 EI CAS CSCD 北大核心 2023年第12期3496-3506,共11页
视觉关系检测是在目标识别的基础上,进一步检测出目标之间的关系,属于视觉理解和推理的关键技术.然而,由于关系标签视觉上的相似性以及数据不平衡问题造成少样本的尾部关系检测召回率较低.为了提高尾部关系的检测效果,本文将关系标签进... 视觉关系检测是在目标识别的基础上,进一步检测出目标之间的关系,属于视觉理解和推理的关键技术.然而,由于关系标签视觉上的相似性以及数据不平衡问题造成少样本的尾部关系检测召回率较低.为了提高尾部关系的检测效果,本文将关系标签进行粗细粒度划分构建了标签的层次结构表示,提出了基于标签层次结构的视觉关系检测模型.模型利用视觉关系之间的相似性以及数据带有的偏见性构建关系标签的层次结构表示,以此将关系区分为粗粒度关系和细粒度关系,使尾部关系在由粗粒度到细粒度的结构上获得更多的关注.同时,针对标签层次结构的性质设计其损失函数,该损失函数通过结构化信息逐层学习不同类别关系之间的差异,使模型更好的检测尾部细粒度关系.分别在公开数据集Visual Relationship Detection(VRD)和Visual Genome(VG)中验证了本文模型检测尾部关系的效果.与现有模型相比,在VRD数据集中平均召回率mR@20、mR@50和mR@100分别提高了0.62%、1.57%和2.47%;在VG数据集中,mR@20、mR@50和mR@100分别提高了0.67%、0.83%和1.15%. 展开更多
关键词 视觉关系检测 标签层次结构表示 长尾分布 粗粒度关系 细粒度关系
在线阅读 下载PDF
一种残差置乱上下文信息的场景图生成方法 被引量:3
6
作者 林欣 田鑫 +2 位作者 季怡 徐云龙 刘纯平 《计算机研究与发展》 EI CSCD 北大核心 2019年第8期1721-1730,共10页
场景图在视觉理解中有着很重要的作用.现有的场景图生成方法对于主语、宾语以及主宾语间的视觉关系进行研究.但是,人类通过空间关系上下文、语义上下文和目标之间的互动信息来进行关系的理解和推理.为了获得更好的全局上下文表示,同时... 场景图在视觉理解中有着很重要的作用.现有的场景图生成方法对于主语、宾语以及主宾语间的视觉关系进行研究.但是,人类通过空间关系上下文、语义上下文和目标之间的互动信息来进行关系的理解和推理.为了获得更好的全局上下文表示,同时减少数据集偏差的影响,提出了一个新的场景图生成框架RSSQ(residual shuffle sequence model).该框架由目标解码、残差置乱和位置嵌入3部分构成.残差置乱模块由随机置乱和残差连接的双向LSTM的基本结构叠加而成,利用迭代方式实现随机打乱双向LSTM的隐藏状态以减少数据集偏差影响,利用残差连接提取共享的全局上下文信息.在位置嵌入模块中,通过对目标的相对位置和面积比例的编码则可以增强目标对之间的空间关系.在数据集Visual Genome的3个不同层次子任务的实验中,证明了提出的RSSQ方法因全局上下文改善和空间关系增强,在Recall@50和Recall@100指标评价下,相对于现有方法能生成更好的场景图. 展开更多
关键词 场景图 视觉关系 上下文 残差双向LSTM 目标检测
在线阅读 下载PDF
结合注意力机制与特征融合的场景图生成模型 被引量:5
7
作者 黄勇韬 严华 《计算机科学》 CSCD 北大核心 2020年第6期133-137,共5页
视觉场景理解不仅可以孤立地识别单个物体,还可以得到不同物体之间的相互作用关系。场景图可以获取所有的(主语-谓词-宾语)信息来描述图像内部的对象关系,在场景理解任务中应用广泛。然而,大部分已有的场景图生成模型结构复杂、推理速... 视觉场景理解不仅可以孤立地识别单个物体,还可以得到不同物体之间的相互作用关系。场景图可以获取所有的(主语-谓词-宾语)信息来描述图像内部的对象关系,在场景理解任务中应用广泛。然而,大部分已有的场景图生成模型结构复杂、推理速度慢、准确率低,不能在现实情况下直接使用。因此,在Factorizable Net的基础上提出了一种结合注意力机制与特征融合的场景图生成模型。首先把整个图片分解为若干个子图,每个子图包含多个对象及对象间的关系;然后在物体特征中融合其位置和形状信息,并利用注意力机制实现物体特征和子图特征之间的消息传递;最后根据物体特征和子图特征分别进行物体分类和物体间关系推断。实验结果表明,在多个视觉关系检测数据集上,该模型视觉关系检测的准确率为22.78%~25.41%,场景图生成的准确率为16.39%~22.75%,比Factorizable Net分别提升了1.2%和1.8%;并且利用一块GTX1080Ti显卡可以在0.6 s之内实现对一幅图像的物体和物体间的关系进行检测。实验数据充分说明,采用子图结构明显减少了需要进行关系推断的图像区域数量,利用特征融合方法和基于注意力机制的消息传递机制提升了深度特征的表现能力,可以更快速准确地预测对象及其关系,从而有效解决了传统的场景图生成模型时效性差、准确度低的难题。 展开更多
关键词 场景图 视觉关系检测 注意力机制 消息传递 特征融合
在线阅读 下载PDF
嵌入视觉关系掩码的多类别金具检测方法 被引量:1
8
作者 王巍 杨耀权 +2 位作者 王乾铭 翟永杰 赵振兵 《智能系统学报》 CSCD 北大核心 2023年第3期440-449,共10页
在对输电线路金具进行检测的过程中,由于受到复杂背景的影响,一些互相遮挡或者特征不明显的金具会隐匿在复杂环境难以精确检测。针对这一问题,提出了基于视觉关系掩码的多类别金具检测模型,通过挖掘和提取输电线路金具之间包含空间信息... 在对输电线路金具进行检测的过程中,由于受到复杂背景的影响,一些互相遮挡或者特征不明显的金具会隐匿在复杂环境难以精确检测。针对这一问题,提出了基于视觉关系掩码的多类别金具检测模型,通过挖掘和提取输电线路金具之间包含空间信息的视觉关系先验知识,构建视觉关系掩码和视觉关系检测网络,并将先验知识作为辅助信息融入视觉关系模块中,最终实现多类别金具的精确定位与识别。对具有14类金具的数据集进行多种定性和定量实验,结果表明,改进后的模型平均检测精度能提高到76.25%,检测效果也优于其他先进目标检测模型。 展开更多
关键词 目标检测 输电线路 金具 深度学习 视觉关系 先验知识 空间信息 辅助信息
在线阅读 下载PDF
面向无人平台的视觉空间关系模型 被引量:1
9
作者 皇甫润南 田江鹏 +1 位作者 游雄 屠铱成 《测绘通报》 CSCD 北大核心 2023年第10期34-39,66,共7页
视觉空间关系是指通过视觉传感器获得的空间关系。当认知主体由人转变为无人平台时,显式地描述与记录空间关系是无人平台实现场景理解和空间推理的关键。本文聚焦无人平台视觉空间关系模型缺失现状,将地图学和机器视觉中关于空间关系的... 视觉空间关系是指通过视觉传感器获得的空间关系。当认知主体由人转变为无人平台时,显式地描述与记录空间关系是无人平台实现场景理解和空间推理的关键。本文聚焦无人平台视觉空间关系模型缺失现状,将地图学和机器视觉中关于空间关系的分类、模型和算法进行融合,提出了一种面向无人平台的视觉空间关系模型;构建了融合视觉空间关系模型的数据集,训练视觉空间关系预测模型,比较不同模型的视觉空间关系检测能力,验证了基于视觉空间关系模型所构建数据集的完备性及模型提升视觉关系检测能力的有效性。本文能够改善当前机器视觉领域空间关系不统一的问题,对提高无人平台视觉关系检测、实现空间关系记录和地图模型构建等方面具有一定的研究意义。 展开更多
关键词 视觉空间关系 无人平台 视觉关系检测 时空Transformer
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部