期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于细粒度注意力机制的人与物体交互检测
1
作者 丁元博 白琳 李陶深 《计算机科学》 北大核心 2025年第11期141-149,共9页
细粒度信息作为一种上下文信息,能够辅助模型识别相对空间关系相似的人与物体交互动作。然而,如何利用这一关键线索统一建模多尺度特征图上不同粒度的特征信息,仍然是人与物体交互检测精度进一步提升面临的主要挑战之一。为了解决这一问... 细粒度信息作为一种上下文信息,能够辅助模型识别相对空间关系相似的人与物体交互动作。然而,如何利用这一关键线索统一建模多尺度特征图上不同粒度的特征信息,仍然是人与物体交互检测精度进一步提升面临的主要挑战之一。为了解决这一问题,提出了一种基于细粒度注意力机制的人与物体交互检测模型(FGDHOI)。该模型在细粒度信息的指导下强化局部特征,融合不同尺度的特征图,通过可变形注意力机制自动学习图像内容,并建模不同粒度特征之间的长距离依赖关系,从本质上提高了人与物体交互检测模型的精度。在V-COCO和HICO数据集上进行了广泛的定性、定量及消融实验。实验结果表明,所提出的方法相比基准模型,在V-COCO数据集上mAP提升了7.7个百分点,在HICO数据集3项指标上mAP分别提升了7.43个百分点、7.5个百分点和7.85个百分点。 展开更多
关键词 深度学习 人与物体交互检测 细粒度信息 注意力机制
在线阅读 下载PDF
基于深度归一化的任意交互物体检测方法研究 被引量:1
2
作者 黄玲涛 孔紫静 +1 位作者 杨帆 张红彦 《农业机械学报》 EI CAS CSCD 北大核心 2024年第8期428-436,共9页
交互物体的检测识别是实现人机交互的一项关键技术,针对人机交互过程中交互物体检测范围受限的问题,本文利用深度归一化提高深度图像质量,提出了一种基于图像分割的任意交互物体检测方法。该方法针对操作人员侧向和正向姿态,分别采用基... 交互物体的检测识别是实现人机交互的一项关键技术,针对人机交互过程中交互物体检测范围受限的问题,本文利用深度归一化提高深度图像质量,提出了一种基于图像分割的任意交互物体检测方法。该方法针对操作人员侧向和正向姿态,分别采用基于显著性检测的图像处理和人体姿态引导的区域生长算法分割目标区域,锚定目标物体边框实现物体检测。最后,进行了交互物体检测实验及不同深度区间位置测距和跟随实验。实验结果表明,所提出的物体检测方法能够实现任意交互物体检测,在交互物体检测方面具有广泛适用性;较小深度区间的归一化能够使物体位置误差变小,提高了物体检测距离精度及机器人跟随效果。 展开更多
关键词 目标物体检测 深度归一化 图像分割 人机交互
在线阅读 下载PDF
基于姿态信息的人与物体交互检测模块网络 被引量:1
3
作者 梁志军 刘栋 《计算机应用研究》 CSCD 北大核心 2021年第8期2299-2302,共4页
针对在相对密集场景下检测不佳的普遍现象,提出了基于人体姿态信息输入的模块化神经网络,通过构建绝对姿态特征和相对空间姿态特征来促进人与物体交互关系的检测。该算法主要包含两个分支:a)通过全连接层网络来独立处理每个人体关节点... 针对在相对密集场景下检测不佳的普遍现象,提出了基于人体姿态信息输入的模块化神经网络,通过构建绝对姿态特征和相对空间姿态特征来促进人与物体交互关系的检测。该算法主要包含两个分支:a)通过全连接层网络来独立处理每个人体关节点相对于物体的空间姿态特征;b)通过全连接图神经网络来更新每个关节点的绝对姿态特征。最后通过一个行为分类网络基于融合后的特征来进行交互关系的推断。该模块网络结合先进的检测模型VS-GATs在数据集V-COCO和HICO-DET上取得了显著的提升效果:在V-COCO上,比VS-GATs的检测结果提升2 mAP(约4%);在更有挑战性的HICO-DET上,比VS-GATs的检测结果提升0.98 mAP(约4.6%)。实验表明了所构建特征的有效性以及设计的网络的优越性。 展开更多
关键词 人与物体交互关系检测 人体姿态 特征融合 神经网络
在线阅读 下载PDF
基于物体间关系和场景信息的目标检测
4
作者 赵维 张燕妮 《东北师大学报(自然科学版)》 CAS 北大核心 2020年第2期80-85,共6页
提出了一种基于物体间关系和全局场景信息的目标检测方法.该方法利用物体的几何位置信息建立物体间的关系,并将图像的全局场景信息作为目标检测的先验知识.在2个常用的目标检测数据库上测试了方法性能.实验结果表明,所提出的方法不仅具... 提出了一种基于物体间关系和全局场景信息的目标检测方法.该方法利用物体的几何位置信息建立物体间的关系,并将图像的全局场景信息作为目标检测的先验知识.在2个常用的目标检测数据库上测试了方法性能.实验结果表明,所提出的方法不仅具有较好的目标检测准确率,而且具有较高的计算效率. 展开更多
关键词 目标检测 物体关系 全局场景信息
在线阅读 下载PDF
深度学习的人-物体交互检测研究进展 被引量:2
5
作者 阮晨钊 张祥森 +1 位作者 刘科 赵增顺 《计算机科学与探索》 CSCD 北大核心 2022年第2期323-336,共14页
人-物体交互检测(HOI),就是把图像作为输入,检测出图像中存在交互行为的人和物体以及他们之间的交互动词。它是计算机视觉范畴里继目标检测、图像分割和目标跟踪之后又一新任务,旨在对图像进行更深层的理解。针对目前基于深度学习的HOI... 人-物体交互检测(HOI),就是把图像作为输入,检测出图像中存在交互行为的人和物体以及他们之间的交互动词。它是计算机视觉范畴里继目标检测、图像分割和目标跟踪之后又一新任务,旨在对图像进行更深层的理解。针对目前基于深度学习的HOI检测综述性文章的空白,以HOI检测方法的发展历程为主线,对基于深度学习的HOI检测方法进行了分类与分析。首先简要总结了早期的技术方法,然后根据模型结构将现有算法分为两阶段方法和一阶段方法并对一些代表性算法进行分析介绍。将两阶段方法分为融入注意力、图模型以及姿势和身体部位三类进行重点论述,总结了每类方法的基本思想与优缺点。此外,还详细介绍了HOI检测任务的实验评价指标、基准数据集和大多数现有方法的实验结果,对不同类别的方法取得的结果进行说明。最后对该技术面临的主要挑战进行总结分析并对未来发展趋势进行展望。 展开更多
关键词 人-物体交互检测(HOI) 计算机视觉 目标检测 深度学习
在线阅读 下载PDF
人物交互检测研究进展综述 被引量:4
6
作者 龚勋 张志莹 +2 位作者 刘璐 马冰 吴昆伦 《西南交通大学学报》 EI CSCD 北大核心 2022年第4期693-704,共12页
作为目标检测、行为识别、视觉关系检测的交叉学科,人物交互(human-object interaction,HOI)检测旨在识别特定应用场景下人与物体的相互关系.本文对基于图像的人物交互检测研究成果进行了系统总结及论述.首先,从交互关系建模的原理出发... 作为目标检测、行为识别、视觉关系检测的交叉学科,人物交互(human-object interaction,HOI)检测旨在识别特定应用场景下人与物体的相互关系.本文对基于图像的人物交互检测研究成果进行了系统总结及论述.首先,从交互关系建模的原理出发,把人物交互检测方法分为基于全局实例和基于局部实例两类,并对代表性方法进行了详细阐述和分析;进而,根据所采用视觉特征的差异将基于全局实例的方法进行细分,包括融合空间位置信息、融合外观信息与融合人体姿态信息;然后,讨论了零样本学习、弱监督学习以及Transformer模型在人物交互检测中的应用;最后,从交互类别、视觉干扰以及运动视角三方面出发,总结了人物交互检测面临的挑战,并指出领域泛化、实时检测和端到端网络是未来发展的趋势. 展开更多
关键词 人物交互 视觉关系 目标检测 动作识别
在线阅读 下载PDF
基于高斯层级损失的开放场景物体检测
7
作者 王琳 陈熙霖 《中国科学院大学学报(中英文)》 CSCD 北大核心 2021年第4期538-548,共11页
计算机视觉中的物体检测包括2个目标——对物体的定位和识别。由于现有大多数的物体检测方法都是类别依赖的,因此无法应对开放场景中新类别的检测。注意到检测中定位和识别2个目标从已知类向未知类迁移的难度不同,定位具有更好的普适性... 计算机视觉中的物体检测包括2个目标——对物体的定位和识别。由于现有大多数的物体检测方法都是类别依赖的,因此无法应对开放场景中新类别的检测。注意到检测中定位和识别2个目标从已知类向未知类迁移的难度不同,定位具有更好的普适性,同时受人类在认知未知物体过程中层次关系的启发,提出一种高斯层级损失模型,在物体检测中采用物体类别层次化建模,在学习层级结构中每个类别多维高斯分布的同时,使用KL散度描述类别之间的层级关系,增强已知类到未知类的迁移性,从而提升物体检测方法在开放场景下对未知类的识别能力。实验表明,所提出的方法可以在不损失已知类性能的前提下,提升对未知类的检测能力。 展开更多
关键词 物体检测 开放场景 类别层级关系 高斯层级损失
在线阅读 下载PDF
基于多重语义交互的递归式场景理解框架 被引量:2
8
作者 姚拓中 左文辉 +1 位作者 安鹏 宋加涛 《计算机科学》 CSCD 北大核心 2019年第5期228-234,共7页
传统基于前馈设计的视觉系统已经非常普遍,但其存在的一大缺陷是某个环节出现的错误无法被及时修正,从而影响系统的最终性能。为此,提出了一种简易的交互式框架,其特点在于场景语义的不确定性能够通过不同的视觉分析过程协同工作实现求... 传统基于前馈设计的视觉系统已经非常普遍,但其存在的一大缺陷是某个环节出现的错误无法被及时修正,从而影响系统的最终性能。为此,提出了一种简易的交互式框架,其特点在于场景语义的不确定性能够通过不同的视觉分析过程协同工作实现求解和优化。在该框架中,分别使用了3个经典的场景理解算法作为视觉分析模块,不同模块之间利用彼此输出的表面布局、边界、深度、视点和物体类等上下文语义之间的交互以实现各自性能的渐进式提升。提出的方法不需要人为设置约束条件,可根据需求插入新的模块而无须对原有框架和算法进行大的修改,具有良好的可扩展性。基于Geometric Context数据集的实验结果表明,这种基于本征信息交互的反馈式设计通过多次递归后能够有效弥补前馈式系统存在的不足,其中表面布局、边界和视点估计的平均精度提升了5%以上,而物体类的平均检测精度也提升了6%以上,其可成为未来改进视觉系统性能的途径之一。 展开更多
关键词 表面布局估计 边界/深度估计 物体/视点检测 多重语义交互 递归式场景理解
在线阅读 下载PDF
基于双分支多头注意力的场景图生成方法 被引量:1
9
作者 王立春 付芳玉 +2 位作者 徐凯 徐洪波 尹宝才 《北京工业大学学报》 CAS CSCD 北大核心 2024年第10期1198-1205,共8页
针对已有场景图生成模型获取上下文信息有限的问题,提出一种有效的上下文融合模块,即双分支多头注意力(dual-stream multi-head attention, DMA)模块,并将DMA分别用于物体分类阶段和关系分类阶段,基于此提出基于双分支多头注意力的场景... 针对已有场景图生成模型获取上下文信息有限的问题,提出一种有效的上下文融合模块,即双分支多头注意力(dual-stream multi-head attention, DMA)模块,并将DMA分别用于物体分类阶段和关系分类阶段,基于此提出基于双分支多头注意力的场景图生成网络(dual-stream multi-head attention-based scene graph generation network, DMA-Net)。该网络由目标检测、物体语义解析和关系语义解析3个模块组成。首先,通过目标检测模块定位图像中的物体并提取物体特征;其次,使用物体语义解析模块中的节点双分支多头注意力(object dual-stream multi-head attention, O-DMA)获取融合了节点上下文的特征,该特征经过物体语义解码器获得物体类别标签;最后,通过关系语义解析模块中的边双分支多头注意力(relationship dual-stream multi-head attention, R-DMA)输出融合了边上下文的特征,该特征经过关系语义解码器输出关系类别标签。在公开的视觉基因组(visual genome, VG)数据集上分别计算了DMA-Net针对场景图检测、场景图分类和谓词分类3个子任务的图约束召回率和无图约束召回率,并与主流的场景图生成方法进行比较。实验结果表明,所提出的方法能够充分挖掘场景中的上下文信息,基于上下文增强的特征表示有效提升了场景图生成任务的精度。 展开更多
关键词 场景图生成 上下文融合 双分支多头注意力(dual-stream multi-head attention DMA) 目标检测 物体分类 关系分类
在线阅读 下载PDF
基于多视角RGB-D图像帧数据融合的室内场景理解 被引量:10
10
作者 李祥攀 张彪 +1 位作者 孙凤池 刘杰 《计算机研究与发展》 EI CSCD 北大核心 2020年第6期1218-1226,共9页
对于智能机器人来说,正确地理解环境是一项非常重要且充满挑战性的能力,从而成为机器人学领域一个关键问题.随着服务机器人进入家庭成为趋势,让机器人能够依靠自身搭载的传感器和场景理解算法,以自主、可靠的方式感知并理解其所处的环境... 对于智能机器人来说,正确地理解环境是一项非常重要且充满挑战性的能力,从而成为机器人学领域一个关键问题.随着服务机器人进入家庭成为趋势,让机器人能够依靠自身搭载的传感器和场景理解算法,以自主、可靠的方式感知并理解其所处的环境,识别环境中的各类物体及其相互关系,并建立环境模型,成为自主完成任务和实现人机器人智能交互的前提.在规模较大的室内空间中,由于机器人常用的RGB-D(RGB depth)视觉传感器(同时获取彩色图像和深度信息)视野有限,使之难以直接获取包含整个区域的单帧图像,但机器人能够运动到不同位置,采集多种视角的图像数据,这些数据总体上能够覆盖整个场景.在此背景下,提出了基于多视角RGB-D图像帧信息融合的室内场景理解算法,在单帧RGB-D图像上进行物体检测和物体关系提取,在多帧RGB-D图像上进行物体实例检测,同时构建对应整个场景的物体关系拓扑图模型.通过对RGB-D图像帧进行划分,提取图像单元的颜色直方图特征,并提出基于最长公共子序列的跨帧物体实例检测方法,确定多帧图像之间的物体对应关联,解决了RGB-D摄像机视角变化影响图像帧融合的问题.最后,在NYUv2(NYU depth dataset v2)数据集上验证了本文算法的有效性. 展开更多
关键词 物体检测 物体实例检测 RGB-D图像 物体关系拓扑图 场景理解
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部