期刊文献+
共找到468篇文章
< 1 2 24 >
每页显示 20 50 100
基于运动-时间感知的人体动作识别方法 被引量:1
1
作者 王晓路 汶建荣 《计算机工程》 北大核心 2025年第1期216-224,共9页
针对动作视频中存在冗余信息及动作信息的特征通道分布稀疏问题,提出一种基于运动-时间感知的3D残差网络。利用运动感知模块(AM)计算特征级别的时间差来激励运动敏感通道,以此获取运动特征;通过时间注意力模块(TM)沿着时间维度计算注意... 针对动作视频中存在冗余信息及动作信息的特征通道分布稀疏问题,提出一种基于运动-时间感知的3D残差网络。利用运动感知模块(AM)计算特征级别的时间差来激励运动敏感通道,以此获取运动特征;通过时间注意力模块(TM)沿着时间维度计算注意力权重矩阵,以获取局部时间特征。将AM模块和TM模块的计算结果相加,得到动作信息的融合特征,再加入到3D残差网络中,以此构造基于运动-时间感知模块(ATM)的3D残差网络。实验结果表明,在公共数据集UCF101和HMDB51上,相对于3DResNeXt-101网络,基于ATM模块的3DResNeXt-101网络的动作识别准确率分别提升1.6%和2.8%,说明所提方法具有可行性和有效性。 展开更多
关键词 深度学习 动作识别 运动感知 时间注意力 3D残差网络
在线阅读 下载PDF
基于对比学习的动作识别研究综述
2
作者 孙中华 吴双 +2 位作者 贾克斌 冯金超 刘鹏宇 《电子与信息学报》 北大核心 2025年第8期2473-2485,共13页
人体动作具有类别数量多、类内/类间差异不均衡等特性,导致动作识别对数据标签数量与质量的依赖度过高,大幅增加了学习模型的训练成本,而对比学习是解决该问题的有效方法之一,近年来基于对比学习的动作识别逐渐成为研究热点。基于此,该... 人体动作具有类别数量多、类内/类间差异不均衡等特性,导致动作识别对数据标签数量与质量的依赖度过高,大幅增加了学习模型的训练成本,而对比学习是解决该问题的有效方法之一,近年来基于对比学习的动作识别逐渐成为研究热点。基于此,该文全面论述了对比学习在动作识别中的最新进展,将对比学习的研究分为3大阶段:传统对比学习、基于聚类的对比学习以及不使用负样本的对比学习。在每一阶段,首先概述具有代表性的对比学习模型,然后分析了当前基于该类模型的主要动作识别方法。另外,介绍了主流基准数据集,总结了经典方法在数据集上的性能对比。最后,探讨了对比学习模型在动作识别研究中的局限性和可延展之处。 展开更多
关键词 动作识别 对比学习 对比损失 无监督学习
在线阅读 下载PDF
基于多通道特征融合的人体动作识别方法
3
作者 陶志勇 郭希俊 +2 位作者 任晓奎 刘影 王泽民 《工程科学与技术》 北大核心 2025年第1期68-79,共12页
现阶段,深度学习已在基于WiFi的人体动作识别领域得到广泛应用且取得显著成果。然而,在利用多输入、多输出(MIMO)系统强大的空间分集特性进行动作识别时,受多径效应影响,获得信道状态信息(CSI)存在对相同动作的特征描述存在差异、不同... 现阶段,深度学习已在基于WiFi的人体动作识别领域得到广泛应用且取得显著成果。然而,在利用多输入、多输出(MIMO)系统强大的空间分集特性进行动作识别时,受多径效应影响,获得信道状态信息(CSI)存在对相同动作的特征描述存在差异、不同动作的特征描述存在类似、特征提取不完整和动作分类复杂的问题。为解决上述问题,本文提出一种基于双重注意力机制和多通道、多尺度的时间卷积网络的动作识别方法。首先,根据MIMO系统的空间分集特性,构建多通道信息提取模型,从各个天线接收到的信道中提取出有关动作的特性信息。然后,设计多尺度的统合机制,强化同一动作在不同通道接收数据的表征,通过整合不同尺度的动作特征,增强对动作的表征能力。再次,采用特征图融合注意力机制和特征通道注意力机制对各通道的动作特征进行聚合。注意力机制能有效地找出对最终动作识别有重要贡献的特征,使模型可以更好地进行特征聚焦。与此同时,将时间卷积网络应用于特征处理过程,使不同时间步的动作特征间的长期依赖关系得以维持,增加对复杂和连续动作的识别能力。最终,利用全局平均池化层(GAP)将各通道的特征图与动作分类器进行连接,以便多通道的动作特性能有效聚合在一起,进一步提高动作识别的精度。本文提出的模型在公共数据集7种动作测试中,实现98.72%的平均准确率。同时在自行搭建的实验室、教室和走廊等真实环境下进行测试时,10种不同的动作分别获得97.94%、97.28%和95.66%的识别准确率。实验结果充分证明了本文所提出的基于WiFi的人体动作识别模型在不同环境的有效性和优越性。 展开更多
关键词 动作识别 深度学习 信道状态信息 TCN 注意力
在线阅读 下载PDF
基于注意力机制和能量函数的动作识别算法
4
作者 王丽芳 吴荆双 +1 位作者 尹鹏亮 胡立华 《计算机应用》 北大核心 2025年第1期234-239,共6页
针对零样本动作识别(ZSAR)算法的框架缺乏结构性指导的问题,以基于能量的模型(EBM)指导框架设计,提出基于注意力机制和能量函数的动作识别算法(ARAAE)。首先,为了得到EBM的输入,设计了光流加3D卷积(C3D)架构的组合以提取视觉特征,从而... 针对零样本动作识别(ZSAR)算法的框架缺乏结构性指导的问题,以基于能量的模型(EBM)指导框架设计,提出基于注意力机制和能量函数的动作识别算法(ARAAE)。首先,为了得到EBM的输入,设计了光流加3D卷积(C3D)架构的组合以提取视觉特征,从而达到空间去冗余的效果;其次,将视觉Transformer(ViT)用于视觉特征的提取以减少时间冗余,同时利用ViT配合光流加C3D架构的组合以减少空间冗余,从而获得非冗余视觉空间;最后,为度量视觉空间和语义空间的相关性,实现能量评分评估机制,设计联合损失函数来进行优化实验。采用6个经典ZSAR算法及近年文献里的算法在两个数据集HMDB51和UCF101进行实验的结果表明:相较于CAGE(Coupling Adversarial Graph Embedding)、Bi-dir GAN(Bi-directional Generative Adversarial Network)和ETSAN(Energy-based Temporal Summarized Attentive Network)等算法,在平均分组的HMDB51数据集上,ARAAE平均识别准确率提升至(22.1±1.8)%,均明显优于对比算法;在平均分组的UCF101数据集上,ARAAE的平均识别准确率提升至(22.4±1.6)%,略优于对比算法;在以81/20为分割方式的UCF101数据集上,ARAAE的平均识别准确率提升至(40.2±2.6)%,均大于对比算法。可见,ARAAE在ZSAR中能有效提高识别性能。 展开更多
关键词 零样本动作识别 能量函数 注意力机制 光流法 视觉特征
在线阅读 下载PDF
多维感知-空间解耦单样本人体动作识别模型
5
作者 胡正平 王雨露 +2 位作者 张琦明 许凌峰 陈代萍 《信号处理》 北大核心 2025年第4期683-693,共11页
基于骨骼数据的人体动作识别方法因其能够消除与动作无关的视觉信息来降低训练复杂性越来越受到人们关注,然而大规模骨骼动作数据收集和注释面临挑战,基于骨骼的单样本动作识别旨在仅用单个训练样本识别人体动作,可以使机器人对新颖动... 基于骨骼数据的人体动作识别方法因其能够消除与动作无关的视觉信息来降低训练复杂性越来越受到人们关注,然而大规模骨骼动作数据收集和注释面临挑战,基于骨骼的单样本动作识别旨在仅用单个训练样本识别人体动作,可以使机器人对新颖动作类别积极反应改善人机交互。针对基于卷积神经网络编码器进行人类活动分类数据稀缺问题,考虑将单样本动作识别问题表述为骨骼序列紧凑表示和深度度量学习范式,基于自注意力Transformer机制和空间解耦约束重新审视骨骼动力学图像建模向新颖活动类别传输,提出多维感知-空间解耦单样本人体动作识别模型。首先,将3D骨骼序列坐标映射为紧凑图像表示;其次,基于骨干网络将输入投影到低维特征空间,提取初级动作特征;接着,设计融合多层感知机与Transformer的嵌入编码器,在嵌入空间中捕捉关节时间空间依赖关系,增强模型对时空信息感知能力,得到高层次多维嵌入特征;然后,基于最近邻搜索完成样本间相似性度量;最后,结合多相似性损失、三元组边界损失、交叉熵损失和空间解耦损失的混合深度度量学习优化模型。实验在公共大规模数据集NTU RGB+D 120上进行评估,提出方法较Skeleton-DML提高3.8%,在使用40个训练类别时较Skeleton-DML提高7.5%。研究表明,提出方法能够在数据稀缺情况下充分利用骨骼序列紧凑表示信息,提高单样本动作识别匹配精度。 展开更多
关键词 动作识别 单样本学习 度量学习 TRANSFORMER 空间解耦
在线阅读 下载PDF
双流运动建模-循环一致性对齐小样本动作识别算法
6
作者 胡正平 董佳伟 王昕宇 《燕山大学学报》 北大核心 2025年第1期83-94,共12页
针对不同场景下动作时空分布不同导致视频对齐困难,进而影响视频识别准确度问题,提出对双流特征进行运动建模和循环一致性对齐的小样本动作识别方法,能够在全局帧和局部块双尺度特征建模和对齐高维运动表示。首先基于双流特征设计了运... 针对不同场景下动作时空分布不同导致视频对齐困难,进而影响视频识别准确度问题,提出对双流特征进行运动建模和循环一致性对齐的小样本动作识别方法,能够在全局帧和局部块双尺度特征建模和对齐高维运动表示。首先基于双流特征设计了运动建模框架,重塑视频序列中动作表示的时空联系,实现对视频动作的准确定位和语义性捕获;然后,为帮助模型学习动作间时空对应关系,引入循环一致性对齐机制,利用软最近邻查询的方法,高效对齐视频动作,显著改善了视频动作的错位问题;最后,结合基于注意力机制的时域交叉匹配模块,对动作类别进行推理分类。实验结果表明,该算法在SSv2、HMDB51、UCF101上分别达到68.6%、77.7%和96.9%的识别精度,实现了对视频动作的有效识别。 展开更多
关键词 小样本学习 动作识别 双流网络 注意力机制 循环一致性对齐
在线阅读 下载PDF
参数高效化微调的双分支视频动作识别方法
7
作者 王小伟 沈燕飞 邢庆君 《河南理工大学学报(自然科学版)》 北大核心 2025年第4期21-28,共8页
目的面向视频的AI智慧体育对于个性化训练、定制化运动分析具有重要的现实价值。现有的视频动作分析框架依赖于“预训练-微调”的范式将图像预训练模型迁移到视频时序建模中,然而,随着模型尺寸和预训练规模的不断扩大,一方面直接微调需... 目的面向视频的AI智慧体育对于个性化训练、定制化运动分析具有重要的现实价值。现有的视频动作分析框架依赖于“预训练-微调”的范式将图像预训练模型迁移到视频时序建模中,然而,随着模型尺寸和预训练规模的不断扩大,一方面直接微调需更新全部参数导致计算成本高昂,另一方面难以基于图像大模型实现视频时空特征的建模。方法为此,提出一种基于大规模图像预训练模型的双分支视频动作识别框架TBN(two branch network),其包含时空解耦的双分支架构,分别处理静态背景特征和时序动态动作特征。在迁移中,预训练权重保持冻结,仅通过对额外增加的Prompt和Adaptor中的少量参数进行训练,实现从图像预训练模型到视频时序建模的参数高效化迁移。此外,针对现有基准数据集在高速运动场景的不足,构建一个大规模体育运动数据集Kinetics-Sports,包含42个运动类别(含篮球、滑冰、跨栏等),提供更严格的测试基准。结果在Kinetics-Sports,UCF101和HDBM51数据集上的实验结果表明,提出的方法在3个数据集上的识别准确率分别达到97.8%,78.0%,74.2%,优于目前几个数据集上最先进的方法,且参数量仅有12 MB,计算复杂度低于现有主流算法。结论提出的模型在精度-效率方面取得了更好的平衡,提升了体育运动动作检测的准确率和推理效率,为视觉大模型视频迁移提供了高效解决方案。 展开更多
关键词 视频动作识别 预训练模型 参数高效化微调 双分支网络 时空建模
在线阅读 下载PDF
基于毫米波雷达三维点云的人体动作识别数据集与方法 被引量:1
8
作者 靳标 孙康圣 +6 位作者 吴昊 李子璇 张贞凯 蔡焱 李荣民 张向群 杜根远 《雷达学报(中英文)》 北大核心 2025年第1期73-89,共17页
毫米波雷达凭借其出色的环境适应性、高分辨率和隐私保护等优势,在智能家居、智慧养老和安防监控等领域具有广泛的应用前景。毫米波雷达三维点云是一种重要的空间数据表达形式,对于人体行为姿态识别具有极大的价值。然而,由于毫米波雷... 毫米波雷达凭借其出色的环境适应性、高分辨率和隐私保护等优势,在智能家居、智慧养老和安防监控等领域具有广泛的应用前景。毫米波雷达三维点云是一种重要的空间数据表达形式,对于人体行为姿态识别具有极大的价值。然而,由于毫米波雷达点云具有强稀疏性,给精准快速识别人体动作带来了巨大的挑战。针对这一问题,该文公开了一个毫米波雷达人体动作三维点云数据集mmWave-3DPCHM-1.0,并提出了相应的数据处理方法和人体动作识别模型。该数据集由TI公司的IWR1443-ISK和Vayyar公司的vBlu射频成像模组分别采集,包括常见的12种人体动作,如走路、挥手、站立和跌倒等。在网络模型方面,该文将边缘卷积(EdgeConv)与Transformer相结合,提出了一种处理长时序三维点云的网络模型,即Point EdgeConv and Transformer(PETer)网络。该网络通过边缘卷积对三维点云逐帧创建局部有向邻域图,以提取单帧点云的空间几何特征,并通过堆叠多个编码器的Transformer模块,提取多帧点云之间的时序关系。实验结果表明,所提出的PETer网络在所构建的TI数据集和Vayyar数据集上的平均识别准确率分别达到98.77%和99.51%,比传统最优的基线网络模型提高了大约5%,且网络规模仅为1.09 M,适于在存储受限的边缘设备上部署。 展开更多
关键词 人体动作识别 毫米波雷达 三维点云 深度学习 卷积神经网络
在线阅读 下载PDF
基于激光雷达的人体序列动作识别评估打分系统
9
作者 鞠业昭 张海洋 +2 位作者 王元泽 孔春秀 赵长明 《应用光学》 北大核心 2025年第2期443-450,共8页
激光雷达具有精度高、抗干扰能力强、体积小、质量轻等优势,在体育运动识别与评估场景中有着重要的应用价值。运动基础动作的准确率对得分至关重要,促进运动员动作标准化对改善运动员动作,尤其是对于直接提高得分率具有重大意义。智能... 激光雷达具有精度高、抗干扰能力强、体积小、质量轻等优势,在体育运动识别与评估场景中有着重要的应用价值。运动基础动作的准确率对得分至关重要,促进运动员动作标准化对改善运动员动作,尤其是对于直接提高得分率具有重大意义。智能评分系统不仅能对运动员的表现进行打分,以减少在跳水、体操等诸多主观评分项目中的得分争议,还能通过反馈动作质量来提高运动员的竞技水平。提出了一种基于激光雷达点云的智能自动评分系统,通过人体目标检测网络、人体关键点识别网络、动作识别网络和动态时间规整序列动作相似性评估算法,得出序列动作与标准动作的差距并打分。实验结果表明,该系统具有自动化、智能化、实时化等特点,对体育领域中的自主训练评估系统构建具有一定参考价值。 展开更多
关键词 激光雷达 动作评估 动作识别 点云处理 神经网络
在线阅读 下载PDF
混合多通道联合学习和双分支注意力融合的动作识别
10
作者 卢少同 王传旭 《计算机工程与应用》 北大核心 2025年第8期145-154,共10页
针对现有骨架动作识别方法对不同通道之间的时空特征提取不充分,以及难以充分融合不同尺度特征的问题,提出混合多通道联合学习和双分支注意力融合的动作识别模型。通过构建混合多通道图拓扑结构,联合学习关节在不同通道之间的相似性和... 针对现有骨架动作识别方法对不同通道之间的时空特征提取不充分,以及难以充分融合不同尺度特征的问题,提出混合多通道联合学习和双分支注意力融合的动作识别模型。通过构建混合多通道图拓扑结构,联合学习关节在不同通道之间的相似性和差异性,从而实现了对不同通道之间的时空特征提取。同时,提出接受域多样化的双分支注意力融合模块,通过注意力机制动态分配局部和全局特征权重以实现不同尺度信息之间的上下文相关性融合。该模型在两个公共数据集NTU-RGB+D 60和NTU-RGB+D 120上进行了多组对比实验。实验结果表明,在NTU-RGB+D 60和NTU-RGB+D 120数据集上的分类准确率分别达到了96.5%和90.7%。 展开更多
关键词 动作识别 混合多通道特征聚合 注意力融合
在线阅读 下载PDF
基于表面肌电信号的CNN-LSTM模型下肢动作识别
11
作者 周智伟 陶庆 +3 位作者 苏娜 刘景轩 李博文 裴浩 《科学技术与工程》 北大核心 2025年第7期2841-2848,共8页
为了提高对下肢运动的分类准确度,提出了一种基于表面肌电信号(surface electromyography, sEMG)的卷积神经网络与长短期记忆网络融合识别模型(convolutional neural network and long short-term memory network, CNN-LSTM)。首先,采集... 为了提高对下肢运动的分类准确度,提出了一种基于表面肌电信号(surface electromyography, sEMG)的卷积神经网络与长短期记忆网络融合识别模型(convolutional neural network and long short-term memory network, CNN-LSTM)。首先,采集了20名受试者进行上楼、下楼、行走和蹲起4种步态动作的sEMG;接着,对采集到的sEMG数据进行预处理,并提取了两种时域和频域特征,用作机器学习识别模型的特征输入;最后,基于预处理后肌电信号数据,构建了CNN-LSTM的下肢动作识别模型,并与CNN、LSTM和支持向量机(support vector machine, SVM)模型的性能进行对比。结果显示,CNN-LSTM模型在下肢动作识别准确率上分别比CNN、LSTM和SVM模型高出2.16%、8.34%、和11.16%,证明了其优越的分类性能。研究结论为康复医疗器械与助力器械提供了一个有效的下肢运动功能改善方案。 展开更多
关键词 表面肌电信号 下肢动作识别 CNN-LSTM 卷积神经网络 长短时记忆网络
在线阅读 下载PDF
基于变分自编码器掩蔽重建的骨骼点动作识别方法
12
作者 王雪婷 郭新 +1 位作者 汪松 陈恩庆 《图学学报》 北大核心 2025年第2期270-278,共9页
掩蔽自编码器(MAE)由于其强大的自监督学习能力被用于不同领域,特别是在数据被遮蔽或可用训练数据较少的任务中获得了较好的效果。但在诸如动作识别等视觉分类任务中,由于自编码器结构中编码器学习特征的能力有限,因此分类效果欠佳。为... 掩蔽自编码器(MAE)由于其强大的自监督学习能力被用于不同领域,特别是在数据被遮蔽或可用训练数据较少的任务中获得了较好的效果。但在诸如动作识别等视觉分类任务中,由于自编码器结构中编码器学习特征的能力有限,因此分类效果欠佳。为了实现用少量标注数据对模型进行训练,并提高自编码器在骨骼点动作识别任务上的特征提取能力,提出一种基于变分自编码器(VAE)的时空掩蔽重建模型(SkeletonMVAE)用于骨骼点动作识别。该模型在传统掩蔽重建模型的编码器后引入VAE的隐空间,使得编码器学习到数据的潜在结构和更丰富的信息,并通过参数β调控重建质量,对骨骼点数据进行掩蔽重建的预训练。预训练好的编码器被用作下游分类任务的特征提取器时,其输出的特征表示更紧凑、更具判别能力和鲁棒性,从而有助于提高模型分类精度和泛化能力,提升仅有少量标注数据训练情况下的模型性能。在NTU-60和NTU-120数据集上的实验结果表明了该方法在骨骼点动作识别任务上的有效性。 展开更多
关键词 人体骨骼点动作识别 自监督学习 时空掩蔽重建 变分自动编码器 隐空间聚合
在线阅读 下载PDF
基于CLIP模型和知识数据库的零样本动作识别 被引量:1
13
作者 侯永宏 郑皓春 +1 位作者 高嘉俊 任懿 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期91-100,共10页
零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签... 零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签上,是限制零样本学习性能提升的关键因素.针对上述问题,本文提出了一种引入外部知识数据库和CLIP模型的零样本学习框架,利用多模态CLIP模型通过自监督对比学习方式积累的知识,来扩充零样本动作识别模型的先验知识.同时,设计了时序编码器,以弥补CLIP模型时序建模能力的欠缺.为了使模型学习到更丰富的语义特征,缩小视觉特征和语义标签之间的语义鸿沟,本文扩展了已知动作类别的语义标签,用更为详细的描述语句代替简单的文本标签,丰富了文本表示的语义信息;在此基础上,在模型外部构建了一个知识数据库,在不增加模型参数规模的条件下为模型提供额外的辅助信息,强化视觉特征与文本特征表示之间的关联关系.最后,本文遵循零样本学习规范,对模型进行微调,使其适应零样本动作识别任务,提高了模型的泛化能力.所提方法在HMDB51和UCF101两个主流数据集上进行了广泛实验,实验数据表明,该方法的识别性能相比目前的先进方法在上述两个数据集上分别提升了3.8%和2.3%,充分体现了所提方法的有效性. 展开更多
关键词 零样本学习 动作识别 CLIP模型 知识数据库
在线阅读 下载PDF
融合内在拓扑与多尺度时间特征的骨架动作识别 被引量:2
14
作者 王琪 何宁 《计算机工程与应用》 北大核心 2025年第4期150-157,共8页
图卷积网络在基于骨架的人体动作识别任务中发挥着关键作用。为了解决现有的图卷积网络忽略内在关系,时间卷积功能受限,以及未能充分探索关节与骨骼之间潜在功能相关性等问题,提出一种融合内在拓扑与多尺度时间特征的骨架动作识别方法... 图卷积网络在基于骨架的人体动作识别任务中发挥着关键作用。为了解决现有的图卷积网络忽略内在关系,时间卷积功能受限,以及未能充分探索关节与骨骼之间潜在功能相关性等问题,提出一种融合内在拓扑与多尺度时间特征的骨架动作识别方法。为推断上下文内在拓扑关系,模型利用多头自注意力机制和共享拓扑构建内在拓扑空间图卷积模块;基于复杂的动作序列分析构建多尺度时间卷积模块,旨在扩展时间卷积结构并捕捉多尺度时间特征;模型搭建关节和骨骼信息交互桥梁,实现两者信息的有效传输和融合,以便更深入地探索它们之间的功能相关性。对所提出的方法进行验证,在NTU-RGB+D 60数据集上取得了CS基准91.5%和CV基准96.9%的识别准确率,在NTU-RGB+D 120数据集上分别取得了C-Sub基准89.0%和C-Set基准90.8%的准确率。实验结果表明所提出方法能够更加有效地提取骨架时空特征,进而提升识别精度。 展开更多
关键词 骨架动作识别 图卷积 内在拓扑 多尺度 信息融合
在线阅读 下载PDF
基于多层次图拓扑对比细化的动作识别 被引量:1
15
作者 唐櫞 魏维 +2 位作者 郑程 李晨 蒋浩文 《计算机应用研究》 北大核心 2025年第2期630-635,共6页
动作识别是计算机视觉领域中的前沿探索,得益于图卷积网络(GCN)处理非欧几里德数据的优势,该方法已成为从骨架数据中提取特征的主流方法。针对目前GCN忽视跨序列信息、对运动轨迹相似度高的模糊样本难以区分等问题,提出一种结合对比学... 动作识别是计算机视觉领域中的前沿探索,得益于图卷积网络(GCN)处理非欧几里德数据的优势,该方法已成为从骨架数据中提取特征的主流方法。针对目前GCN忽视跨序列信息、对运动轨迹相似度高的模糊样本难以区分等问题,提出一种结合对比学习的图拓扑对比细化方法(graph topology contrast refinement block,GTCR-Block)。首先,根据模型的识别情况,将样本划分为可信样本和模糊样本;其次,建立样本级记忆库(sample-level memory bank,B sam)和全局级记忆库(global-level memory bank,B glo),存储跨批次图拓扑,使用对比学习方法使图拓扑具有类内聚合、类间分散的特性,将模糊样本在特征空间中分隔开。最后,采用多层次的策略学习更多的判别特征表示。实验结果表明,在不增加额外参数的情况下,在NTU RGB+D数据集达到了X-Sub基准93.3%和X-View基准97.4%的准确率,在NTU RGB+D 120数据集达到了X-Sub基准89.4%和X-set基准91.2%的准确率。采用GTCR-Block能够有效提升动作识别的效果。 展开更多
关键词 动作识别 图卷积网络 对比学习 多层次 拓扑细化
在线阅读 下载PDF
基于分阶段注意时序对齐的少样本动作识别
16
作者 赵逸飞 詹永照 黄金钾 《计算机应用与软件》 北大核心 2025年第5期122-129,共8页
由于视频中动作各进展阶段发生时间长短不一、时刻各不相同,动作的时序对齐直接影响少样本动作识别性能。对此提出基于分阶段注意时序对齐的少样本动作识别方法,通过分阶段的注意力机制更精确地实现视频片段的时序对齐,避免视频阶段级... 由于视频中动作各进展阶段发生时间长短不一、时刻各不相同,动作的时序对齐直接影响少样本动作识别性能。对此提出基于分阶段注意时序对齐的少样本动作识别方法,通过分阶段的注意力机制更精确地实现视频片段的时序对齐,避免视频阶段级别的时序错配,更合理地获取利用视频中动作的时序信息;通过剔除相似度过低的视频片段特征对,可有效降低非动作片段的干扰,以提高少样本动作识别的准确率。模型训练采用了c路k样本的元学习的训练方式。将所提出的方法在公开数据集UCF101和Kinetics上进行实验,与相关先进方法比较分析,表明所提出方法的有效性。 展开更多
关键词 动作识别 少样本学习 注意力机制 元学习 度量学习
在线阅读 下载PDF
基于时间卷积神经架构搜索的复杂动作识别
17
作者 任鹏真 梁小丹 +2 位作者 常晓军 赵子莹 肖云 《计算机研究与发展》 北大核心 2025年第8期1862-1874,共13页
在视频的复杂动作识别领域中,模型的结构设计对其最终的性能起着至关重要的作用.然而,人工设计的网络结构往往严重依赖于研究人员的知识和经验.因此,神经架构搜索(neural architecture search,NAS)因其自动化的网络结构设计在图像处理... 在视频的复杂动作识别领域中,模型的结构设计对其最终的性能起着至关重要的作用.然而,人工设计的网络结构往往严重依赖于研究人员的知识和经验.因此,神经架构搜索(neural architecture search,NAS)因其自动化的网络结构设计在图像处理领域受到研究人员的广泛关注.当前,神经架构搜索已经在图像领域获得了巨大的发展,一些NAS方法甚至将模型自动化设计所需的GPU天数减少到了个位数,并且其搜索的模型结构表现出了强大的竞争潜力,这鼓励将自动化模型结构设计拓展到视频领域.但它面临2个严峻的挑战:1)如何尽可能捕获视频中的长程上下文时间关联;2)如何尽可能降低3D卷积所带来的计算激增的问题.为了应对上述挑战,提出了一个基于时间卷积的神经架构搜索复杂动作识别(neural architecture search on temporal convolutions for complex action recognition,NAS-TC)模型.具体地,NAS-TC具有2个阶段:在第1阶段,采用经典的CNN网络作为骨干网络,来完成计算密集型的特征提取任务.在第2阶段,提出了一个神经架构搜索时间卷积层来完成相对轻量级的长程时间模型设计和信息提取.这确保了提出的方法具有更合理的参数分配并且可以处理分钟级的视频.最后,提出的方法在3个复杂动作识别基准数据集上与同类型方法相比平均获得了2.3个百分点的m AP的性能增益,并且参数量下降了28.5%. 展开更多
关键词 复杂动作识别 神经架构搜索 卷积分解 视频理解 深度学习
在线阅读 下载PDF
大语言模型知识引导的开放域多标签动作识别
18
作者 朱荣江 石语珩 +2 位作者 杨硕 王子奕 吴心筱 《计算机研究与发展》 北大核心 2025年第8期1875-1883,共9页
开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了... 开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了解决此问题,提出大语言模型知识引导的开放域多标签动作识别方法.该方法挖掘大语言模型蕴含的丰富的动作类别共现知识,并将共现知识嵌入视觉-语言模型的提示学习,实现基本动作类别(base action classes)与新动作类别(novel action classes)之间的信息传递,从而提升新类别的识别性能.在实验中将基本动作类别和新动作类别的比例设置为3∶1和1∶1,分别表示为“75%可见”和“50%可见”.在AVA和Movie Net数据集上的实验结果表明,相较于现有方法,当基本动作类别为“75%”时,该方法在2个数据集的新动作类别识别指标m AP上分别提升了1.95个百分点和1.21个百分点;当面临基本动作类别为“50%”的更困难场景时,提出的方法在这2个数据集上新动作类别识别指标m AP上分别提升了2.59个百分点和1.06个百分点. 展开更多
关键词 开放域动作识别 多标签分类 提示学习 大语言模型 CLIP模型
在线阅读 下载PDF
面向毫米波动作识别的视觉辅助信道仿真技术 被引量:1
19
作者 任振裕 吉辰卿 +2 位作者 余潮 陈万里 王锐 《雷达学报(中英文)》 北大核心 2025年第1期90-101,共12页
该文提出了一种利用计算机视觉技术辅助实现包含运动人体散射特征的毫米波无线信道仿真方法。该方法旨在为毫米波无线人体动作识别场景之下,快速且低成本地生成仿真训练数据集,避免当前实测采集数据集的巨大开销。首先利用基元模型将人... 该文提出了一种利用计算机视觉技术辅助实现包含运动人体散射特征的毫米波无线信道仿真方法。该方法旨在为毫米波无线人体动作识别场景之下,快速且低成本地生成仿真训练数据集,避免当前实测采集数据集的巨大开销。首先利用基元模型将人体建模为35个相互连接的椭球,并从包含人体动作的视频中提取出人体在进行对应动作时各个椭球的运动数据;其次利用简化的射线追踪方法,针对动作中基元模型的每一帧计算对应的信道响应;最后对信道响应进行多普勒分析,获得对应动作的微多普勒时频谱。上述仿真获得的微多普勒时频谱数据集可以用于训练无线动作识别的深度神经网络。该文针对“步行”“跑步”“跌倒”“坐下”这4种常见的人体动作在60 GHz频段上进行了信道仿真及动作识别的测试。实验结果表明,通过仿真训练的深度神经网络在实际无线动作识别中平均识别准确率可以达到73.0%。此外,借助无标签迁移学习,通过少量无标签实测数据的微调,上述准确率可以进一步提高到93.75%。 展开更多
关键词 无线信道建模 无线动作识别 无标签迁移学习 毫米波 计算机视觉
在线阅读 下载PDF
基于双流融合网络的非接触式IR-UWB人体动作识别方法
20
作者 张传宗 王冬子 +2 位作者 郭政鑫 桂林卿 肖甫 《计算机科学》 北大核心 2025年第1期221-231,共11页
随着智能感知技术的飞速发展,人机交互(Human Computer Interaction, HCI)领域迎来了全新的发展态势。传统的人机交互方法主要依赖可穿戴设备或者摄像头采集用户的行为数据,虽然识别精准,却存在不小的局限性。具体而言,可穿戴设备会给... 随着智能感知技术的飞速发展,人机交互(Human Computer Interaction, HCI)领域迎来了全新的发展态势。传统的人机交互方法主要依赖可穿戴设备或者摄像头采集用户的行为数据,虽然识别精准,却存在不小的局限性。具体而言,可穿戴设备会给用户带来额外的使用负担,而基于摄像头的方案不仅会受到环境光线的影响,还会涉及用户隐私的泄露,这些因素均限制了其在日常生活中的广泛应用。为了突破这些限制,实现精确的、非接触式人机交互应用,利用无线射频(Radio Frequency, RF)领域中脉冲超宽带(Impulse Radio Ultra-Wideband, IR-UWB)所具有的高灵敏度和精细空间分辨率等优势,提出了一种基于双流融合网络的非接触式人体动作识别方法。该方法捕获目标运动所导致的时域信号变化,并通过对时域特征进行多普勒频移变化,提取到对应的频域特征。在此基础上,构建了一个融合多维卷积神经网络(Convolutional Neural Networks, CNNs)和GoogLeNet模块的双流网络模型,以实现高精度的动作识别。通过广泛的实验测试,结果表明所提方法对8种常见人体动作的平均识别准确率达到94.89%,并且在不同的测试条件下均能保持超过90%的识别准确率,进一步验证了所提方法的鲁棒性。 展开更多
关键词 人机交互 无线感知 脉冲超宽带 动作识别
在线阅读 下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部