期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于视频测量的结构连续模态辨识
1
作者 王泽慧 汪利 +1 位作者 焦柯 吕中荣 《振动.测试与诊断》 北大核心 2025年第3期551-557,625,共8页
为实现高空间分辨率的结构模态振型识别,提出了一种基于视频测量的结构连续模态辨识方法。首先,引入基于光流的视觉模态分析方法对一定数量的区域进行分析计算,得到结构频率、阻尼比和初始位移;其次,对各区域边缘像素点梯度矩阵进行奇... 为实现高空间分辨率的结构模态振型识别,提出了一种基于视频测量的结构连续模态辨识方法。首先,引入基于光流的视觉模态分析方法对一定数量的区域进行分析计算,得到结构频率、阻尼比和初始位移;其次,对各区域边缘像素点梯度矩阵进行奇异值分解,得到主方向向量,并将初始位移投影在主方向上,得到主方向位移;然后,利用结构连续性条件对整体位移进行恢复和修正,得到结构连续模态;最后,通过拱形模型试验对所提出方法进行验证,将识别频率、阻尼比与激光测振仪的测量结果进行对比。试验结果表明:前5阶的频率识别误差均小于0.15%;阻尼比识别误差除第3阶外均小于0.07%;识别振型与有限元仿真对比,前5阶的模态置信准则值均大于0.95;所提出方法仅针对选定区域分析计算,计算量小,且能够对图像梯度信息不足区域的位移进行恢复和修正,得到结构连续模态。 展开更多
关键词 模态识别 光流法 正则化 连续模态 视觉模态分析
在线阅读 下载PDF
红色故事绘本的多模态视觉叙事方法与设计研究 被引量:4
2
作者 邓婷 李雷 王伊辰 《包装工程》 CAS 北大核心 2024年第S01期422-429,共8页
目的以多模态视觉叙事理论为基础,展开红色故事绘本的视觉叙事方法研究,为红色文化绘本的设计创作提供设计参考和依据,以指导相关红色故事绘本的设计与实践,推动红色文化和精神的现代化传播。方法以红色绘本的叙事构建与设计为侧重点,... 目的以多模态视觉叙事理论为基础,展开红色故事绘本的视觉叙事方法研究,为红色文化绘本的设计创作提供设计参考和依据,以指导相关红色故事绘本的设计与实践,推动红色文化和精神的现代化传播。方法以红色绘本的叙事构建与设计为侧重点,围绕红色绘本的叙事逻辑、叙事线索、叙事场域、叙事路径进一步阐释多模态视觉叙事设计方法与原则,结合“中国好人”叶连平老师的相关事迹进行了绘本叙事设计与实践。结论红色故事绘本的多模态视觉叙事重在挖掘叙事内容和叙事方法,不仅包括视觉层面的符号、图形、色彩、构图、文字等的识别和传达,更重要的是通过视觉信息承载故事内容的情感、氛围和联想,帮助读者建立有效的情感沟通、空间联想、氛围感知渠道,进而传达红色文化内涵,引发深层次的思考与联想,达到传递红色文化精神的主旨。 展开更多
关键词 红色文化 模态视觉叙事 叙事方法 叙事设计
在线阅读 下载PDF
视觉-语言多模态下的多任务人脸年龄估计 被引量:1
3
作者 何江 池静 +1 位作者 池佳稷 高松 《现代电子技术》 北大核心 2024年第14期171-176,共6页
现有的年龄估计方法仅基于人脸图像,无法充分利用图像背后的语言背景信息。此外,这些方法通常专注于单一年龄估计任务的优化,忽略了相近任务带来的提高模型性能的信息。针对上述问题,提出一种基于视觉-语言多模态的多任务人脸年龄估计... 现有的年龄估计方法仅基于人脸图像,无法充分利用图像背后的语言背景信息。此外,这些方法通常专注于单一年龄估计任务的优化,忽略了相近任务带来的提高模型性能的信息。针对上述问题,提出一种基于视觉-语言多模态的多任务人脸年龄估计方法。该方法利用提示文本信息为年龄估计提供更丰富、更准确的图像理解和先验知识。同时,引入多任务学习方法,利用任务间的互补性将年龄分类任务与序数回归任务相结合,以获得更好的性能。最后,为了获得可靠的预测结果,研究了加权平均法和任务回归法两种多任务结果融合方法,并对加权平均法的权重系数进行了消融实验,以期找到一组合适的权重系数。结果表明:与其他先进方法相比,所提方法在UTK-FACE数据集上的平均绝对误差(MAE)降低了7.32%,在MorphⅡ数据集上的MAE降低了1.20%,累积分数(CS)提升了0.11%。 展开更多
关键词 年龄估计 视觉-语言多模态 多任务学习 加权平均法 提示文本 任务回归器
在线阅读 下载PDF
多维度跨模态协同的无参考点云质量评价
4
作者 翟晋赫 张滢雪 司占军 《印刷与数字媒体技术研究》 北大核心 2025年第5期101-110,194,共11页
针对现有点云质量评价方法出现的多维度视觉特征融合不充分、跨模态语义对齐不足等问题,本研究提出了一种融合多维度视觉特征与文本语义的无参考点云质量评价框架TriCMA-PCQA。首先,设计了三分支结构,从点云投影图像和点云模型中分别提... 针对现有点云质量评价方法出现的多维度视觉特征融合不充分、跨模态语义对齐不足等问题,本研究提出了一种融合多维度视觉特征与文本语义的无参考点云质量评价框架TriCMA-PCQA。首先,设计了三分支结构,从点云投影图像和点云模型中分别提取纹理、深度和几何3个维度互补的视觉特征,构建多维度质量表征;随后,设计了多维度特征协同注意力机制,实现纹理-深度-几何特征的跨维度交互,增强视觉特征的判别能力与语义表达力;其次,引入文本模态的语义引导,通过可学习的动态文本提示生成质量描述特征,在共同语义空间中对齐文本语义特征与多维度视觉特征,增强模型对人类主观感知机制的模拟能力;最后,在EMD损失基础上融合分位数损失、对比损失及排序损失共同构建混合损失函数,自适应平衡多任务训练目标。实验结果表明,TriCMA-PCQA在SJTU-PCQA和LS-PCQA数据集上性能优于现有方法,与主观质量具有良好的相关性,可为三维内容生成与处理提供可靠的量化评价工具。 展开更多
关键词 无参考点云质量评价 多维度协同注意力 视觉-文本跨模态对齐 混合损失
在线阅读 下载PDF
基于多模态的井下登高作业专人扶梯检测方法 被引量:3
5
作者 孙晴 杨超宇 《工矿自动化》 CSCD 北大核心 2024年第5期142-150,共9页
目前大多数的井下人员不安全行为识别研究侧重于在计算机视觉上提高精度,但井下易出现遮挡、光照不稳定、反光等情况,仅采用计算机视觉技术难以实现对不安全行为的准确识别,尤其登高作业中的爬梯、扶梯等相似动作在识别过程中易被混淆,... 目前大多数的井下人员不安全行为识别研究侧重于在计算机视觉上提高精度,但井下易出现遮挡、光照不稳定、反光等情况,仅采用计算机视觉技术难以实现对不安全行为的准确识别,尤其登高作业中的爬梯、扶梯等相似动作在识别过程中易被混淆,存在安全隐患。针对上述问题,提出一种基于多模态的井下登高作业专人扶梯检测方法。该方法从视觉和音频2个模态对监控视频数据进行分析。视觉模态方面,采用YOLOv8模型检测登高梯是否存在,如果存在,获得登高梯的位置坐标,并将视频段放入OpenPose算法中进行姿态估计,得到人体的各个骨骼关节点的特征,将这些骨骼关节点序列放入改进的时空注意图卷积网络(SAT−GCN)中,得到人体动作标签及其对应概率。音频模态方面,采用飞桨自动语言识别系统将语音转换为文本,使用双向编码器表示(BERT)模型对文本信息进行特征分析与提取,得到文本标签及其对应的概率。最后将视觉模态与音频模态得到的信息进行决策级融合,判断井下登高作业是否有专人扶梯。实验结果表明:基于骨架数据的动作识别中,优化后的SAT−GCN模型对于扶梯、爬梯、站立3种动作的识别精度分别提升了3.36%,2.83%,10.71%;基于多模态的检测方法比单模态方法具有更高的识别准确率,达到98.29%。 展开更多
关键词 登高作业 专人扶梯 模态融合 视觉模态 音频模态 YOLOv8 OpenPose SAT−GCN BERT
在线阅读 下载PDF
基于多模态视觉特征的自然人机交互 被引量:6
6
作者 管业鹏 《电子学报》 EI CAS CSCD 北大核心 2013年第11期2223-2229,共7页
针对目前人机交互中存在的问题与不足,提出了一种基于多模态视觉特征的人机交互新方法.采用二维Gabor小波提取全局人脸朝向视觉特征,克服人脸显著特征提取困难,以及不同人脸朝向特征区分的难度性;基于人脸几何分布特征,快速定位人眼中心... 针对目前人机交互中存在的问题与不足,提出了一种基于多模态视觉特征的人机交互新方法.采用二维Gabor小波提取全局人脸朝向视觉特征,克服人脸显著特征提取困难,以及不同人脸朝向特征区分的难度性;基于人脸几何分布特征,快速定位人眼中心,无需考虑人脸图像分辨率和人眼闭合及其配戴情况;通过对视觉特征的重要性评价,选取分类特性显著的多模态视觉特征进行机器学习与训练,确定用户所指目标,实现非穿戴自然人机交互,用户无需佩戴任何标记,且其活动不受约束,便于充分发挥其日常技能.通过实验对比,验证了文中所提方法有效、可行,可应用于实时非穿戴自然人机交互中. 展开更多
关键词 人机交互 模态视觉特征 非穿戴 机器学习
在线阅读 下载PDF
视觉提示学习综述 被引量:5
7
作者 廖宁 曹敏 严骏驰 《计算机学报》 EI CAS CSCD 北大核心 2024年第4期790-820,共31页
近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的... 近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的模型通过提示学习在对话生成和多模态图文理解等任务上取得了巨大的成功.然而,这类模型及方法还不能解决视觉中的稠密任务.受此启发,一些研究人员逐渐将提示学习广泛应用到视觉相关的各类任务当中,如图像识别、目标检测、图像分割、领域适应、持续学习等.由于目前还没有提示学习应用在视觉相关领域中的综述,本文将对视觉单模态领域以及视觉语言多模态领域的提示学习方法展开全面论述和分析.作为回顾,我们首先简要介绍自然语言处理领域的预训练模型,并对提示学习的基本概念、下游应用形式以及提示模板类型进行阐述和分类.其次,我们分别介绍视觉单模态领域以及视觉语言多模态领域里提示学习方法适配的预训练模型和任务.再次,我们分别介绍视觉单模态领域以及视觉语言多模态领域的提示学习方法.在自然语言处理领域,提示学习方法以继承预训练形式实现多任务统一为主要目的;与此不同,在视觉相关领域,提示学习方法侧重于面向特定下游任务进行设计.为此,我们将从方法设计上进行简单分类,然后从应用任务角度详细介绍视觉单模态提示学习和视觉语言多模态提示学习方法.最后,我们对比分析了自然语言处理领域和视觉相关领域提示学习研究的进展,并对未来研究路线给出了展望。 展开更多
关键词 大规模预训练模型 自然语言处理 视觉模态提示学习 视觉语言多模态提示学习
在线阅读 下载PDF
主次模态协同性实证分析——以英语听力教学为例 被引量:17
8
作者 惠兆阳 王丽恒 +1 位作者 林意新 赵莉莉 《山东外语教学》 北大核心 2013年第3期77-81,共5页
本文选取英语专业一、二、三年级学生为研究对象,采用定性和定量研究方法,探究听觉模态和视觉模态在不同听力任务和不同听力教学阶段中的协同关系。研究表明,第一,在语音测试任务中,视觉模态和听觉模态在不同的听力阶段形成的关系不同:... 本文选取英语专业一、二、三年级学生为研究对象,采用定性和定量研究方法,探究听觉模态和视觉模态在不同听力任务和不同听力教学阶段中的协同关系。研究表明,第一,在语音测试任务中,视觉模态和听觉模态在不同的听力阶段形成的关系不同:在听力初级阶段,视觉模态妨碍了听觉模态的信息吸收,对听觉模态形成了干扰;在听力的中、高级阶段,视觉模态对语音能力的提高效果不显著,对听觉模态影响甚微,形成非互补关系;第二,在听力理解任务中,视觉模态和听觉模态形成互补关系,并且一直贯穿听力的初、中、高级阶段。在这一关系中,听觉模态为主模态,视觉模态发挥补充、强化作用。本研究通过多模态协同性在听力教学中的具体应用研究,厘清了听觉模态与视觉模态在听力教学不同阶段、不同任务情况下的相互关系,是对多模态关系研究文献的重要补充,为外语听力多模态教学模式设计提供思路和参考。 展开更多
关键词 视觉模态 听觉模态 模态协同 模态干扰
在线阅读 下载PDF
多模态视域下大学英语听力教学模式的构建 被引量:34
9
作者 徐艳丽 《黑龙江高教研究》 CSSCI 北大核心 2013年第11期168-170,共3页
多模态大学英语听力教学是大学英语听力教学未来的发展趋势,文章系统地分析了大学英语听力教学中的多模态因素,分别揭示了听觉模态、视觉模态和触觉模态等大学英语听力教学中的主要模态在大学英语听力教学中的不同作用和配置方式,并指... 多模态大学英语听力教学是大学英语听力教学未来的发展趋势,文章系统地分析了大学英语听力教学中的多模态因素,分别揭示了听觉模态、视觉模态和触觉模态等大学英语听力教学中的主要模态在大学英语听力教学中的不同作用和配置方式,并指出了大学英语听力教学中文化模态教学的必要性和可能途径。 展开更多
关键词 听觉模态 视觉模态 文化模态 大学英语听力教学
在线阅读 下载PDF
融合动作特征的多模态情绪识别 被引量:3
10
作者 孙亚男 温玉辉 +1 位作者 舒叶芷 刘永进 《图学学报》 CSCD 北大核心 2022年第6期1159-1169,共11页
近年来,利用计算机技术实现基于多模态数据的情绪识别成为自然人机交互和人工智能领域重要的研究方向之一。利用视觉模态信息的情绪识别工作通常都将重点放在脸部特征上,很少考虑动作特征以及融合动作特征的多模态特征。虽然动作与情绪... 近年来,利用计算机技术实现基于多模态数据的情绪识别成为自然人机交互和人工智能领域重要的研究方向之一。利用视觉模态信息的情绪识别工作通常都将重点放在脸部特征上,很少考虑动作特征以及融合动作特征的多模态特征。虽然动作与情绪之间有着紧密的联系,但是从视觉模态中提取有效的动作信息用于情绪识别的难度较大。以动作与情绪的关系作为出发点,在经典的MELD多模态情绪识别数据集中引入视觉模态的动作数据,采用ST-GCN网络模型提取肢体动作特征,并利用该特征实现基于LSTM网络模型的单模态情绪识别。进一步在MELD数据集文本特征和音频特征的基础上引入肢体动作特征,提升了基于LSTM网络融合模型的多模态情绪识别准确率,并且结合文本特征和肢体动作特征提升了上下文记忆模型的文本单模态情绪识别准确率,实验显示虽然肢体动作特征用于单模态情绪识别的准确度无法超越传统的文本特征和音频特征,但是该特征对于多模态情绪识别具有重要作用。基于单模态和多模态特征的情绪识别实验验证了人体动作中含有情绪信息,利用肢体动作特征实现多模态情绪识别具有重要的发展潜力。 展开更多
关键词 动作特征 情绪识别 模态 动作与情绪 视觉模态
在线阅读 下载PDF
美国政治漫画中的多模态隐喻构建与批评分析--以中美贸易冲突为例 被引量:42
11
作者 马廷辉 高原 《外语研究》 CSSCI 北大核心 2020年第1期25-32,共8页
多模态隐喻研究扩宽了隐喻研究思路。本研究取材自备受关注的中美贸易冲突,首先从认知维度上根据Forceville的理论框架将100幅美国媒体刊登的贸易战漫画中的多模态隐喻构建机制分为四类。在此基础上,从社会维度上进行批评隐喻分析,揭示... 多模态隐喻研究扩宽了隐喻研究思路。本研究取材自备受关注的中美贸易冲突,首先从认知维度上根据Forceville的理论框架将100幅美国媒体刊登的贸易战漫画中的多模态隐喻构建机制分为四类。在此基础上,从社会维度上进行批评隐喻分析,揭示隐喻背后的意识形态和政治立场。结果发现,美国社会对贸易冲突持坚决反对和抵制态度。本研究采用社会和认知双重视角使多模态隐喻研究更加立体化,并尝试根据政治漫画的语类特点和隐喻的认知理据创建政治漫画多模态隐喻构建与分析模型。 展开更多
关键词 模态隐喻 批评隐喻分析 政治漫画 图像隐喻 视觉模态
在线阅读 下载PDF
基于改进YOLOv5s和多模态图像的树上毛桃检测 被引量:5
12
作者 罗庆 饶元 +4 位作者 金秀 江朝晖 王坦 王丰仪 张武 《智慧农业(中英文)》 2022年第4期84-104,共21页
毛桃等果实的准确检测是实现机械化、智能化农艺管理的必要前提。然而,由于光照不均和严重遮挡,在果园中实现毛桃,尤其是套袋毛桃的检测一直面临着挑战。本研究基于改进YOLOv5s和多模态视觉数据提出了面向机械化采摘的毛桃多分类准确检... 毛桃等果实的准确检测是实现机械化、智能化农艺管理的必要前提。然而,由于光照不均和严重遮挡,在果园中实现毛桃,尤其是套袋毛桃的检测一直面临着挑战。本研究基于改进YOLOv5s和多模态视觉数据提出了面向机械化采摘的毛桃多分类准确检测。具体地,构建了一个多类标签的裸桃和套袋毛桃的RGB-D数据集,包括4127组由消费级RGB-D相机获取的像素对齐的彩色、深度和红外图像。随后,通过引入方向感知和位置敏感的注意力机制,提出了改进的轻量级YOLOv5s(小深度)模型,该模型可以沿一个空间方向捕捉长距离依赖,并沿另一个空间方向保留准确的位置信息,提高毛桃检测精度。同时,通过将卷积操作分解为深度方向的卷积与宽度、高度方向的卷积,使用深度可分离卷积在保持模型检测准确性的同时减少模型的计算量、训练和推理时间。实验结果表明,使用多模态视觉数据的改进YOLOv5s模型在复杂光照和严重遮挡环境下,对裸桃和套袋毛桃的平均精度(Mean Average Precision,mAP)分别为98.6%和88.9%,比仅使用RGB图像提高了5.3%和16.5%,比YOLOv5s提高了2.8%和6.2%。在套袋毛桃检测方面,改进YOLOv5s的mAP比YOLOX-Nano、PP-YOLO-Tiny和EfficientDet-D0分别提升了16.3%、8.1%和4.5%。此外,多模态图像、改进YOLOv5s对提升自然果园中的裸桃和套袋毛桃的准确检测均有贡献,所提出的改进YOLOv5s模型在检测公开数据集中的富士苹果和猕猴桃时,也获得了优于传统方法的结果,验证了所提出的模型具有良好的泛化能力。最后,在主流移动式硬件平台上,改进后的YOLOv5s模型使用五通道多模态图像时检测速度可达每秒19幅,能够实现毛桃的实时检测。上述结果证明了改进的YOLOv5s网络和含多类标签的多模态视觉数据在实现果实自动采摘系统视觉智能方面的应用潜力。 展开更多
关键词 多类检测 YOLOv5s 模态视觉数据 机械化采摘 深度学习
在线阅读 下载PDF
基于异构信息双向传播的网络视频分类方法 被引量:1
13
作者 李谦 杜友田 薛姣 《计算机应用》 CSCD 北大核心 2013年第8期2293-2296,共4页
针对以往大多数网络视频分类研究只将文本和视觉特征进行简单融合的问题,提出了基于异构信息双向传播的网络视频分类方法。首先基于K均值方法将视频关键帧聚类成多个簇,在帧层次上对视频数据进行建模;将每个簇中代表性关键帧的文本信息... 针对以往大多数网络视频分类研究只将文本和视觉特征进行简单融合的问题,提出了基于异构信息双向传播的网络视频分类方法。首先基于K均值方法将视频关键帧聚类成多个簇,在帧层次上对视频数据进行建模;将每个簇中代表性关键帧的文本信息传播至该簇作为其文本解释,完成从文本至视觉模态的传播;对每个关键帧,将其对应簇的文本解释传播至该关键帧,完成从视觉至文本模态的传播;最后基于支持向量机(SVM)对网络视频进行分类。在信息的双重传播中两类异构数据得到了密切的融合。实验结果表明该方法有效地提高了网络视频分类的准确率。 展开更多
关键词 网络视频分类 异构数据 视觉模态 文本模态 双向传播
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部