期刊文献+
共找到263篇文章
< 1 2 14 >
每页显示 20 50 100
Anti-off-target control method for video satellite based on potential function
1
作者 FAN Caizhi WANG Mengmeng +2 位作者 SONG Chao ZHONG Zikai YANG Yueneng 《Journal of Systems Engineering and Electronics》 CSCD 2024年第6期1583-1593,共11页
Small video satellites have unique advantages of short development cycle,agile attitude maneuver,real-time video imaging.They have broad application prospects in space debris,faulty spacecraft,and other space target d... Small video satellites have unique advantages of short development cycle,agile attitude maneuver,real-time video imaging.They have broad application prospects in space debris,faulty spacecraft,and other space target detection and tracking.However,when a space target first enters the camera’s visual field,it has a relatively large angular velocity relative to the satellite,which makes it easy to deviate from the visual field and cause off-target problems.This paper proposes a novel visual tracking control method based on potential function preventing missed targets in space.Firstly,a circular area in the image plane is designed as a mandatory restricted projection area of the target and a visual tracking controller based on image error.Then,a potential function is designed to ensure continuous and stable tracking of the target after entering the visual field.Finally,the stability of the control is proved using Barbarat’s lemma.By setting the same conditions and comparing with the simulation results of the proportion-derivative(PD)control method,the results show that when there is a large relative attitude motion angular velocity between the target and the satellite,the track-ing method based on potential function can ensure that the tar-get does not deviate from the field-of-view during the tracking control process,and the projection of target is controlled to the desired position.The proposed control method is effective in eliminating tracking error and preventing off-target simultane-ously. 展开更多
关键词 small video satellite visual tracking anti-off-target attitude control potential function
在线阅读 下载PDF
基于多模态融合Transformer的视听广义零次学习方法
2
作者 杨静 李小勇 +3 位作者 阮小利 李少波 唐向红 徐计 《电子与信息学报》 北大核心 2025年第7期2375-2384,共10页
视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提... 视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提出了基于Transformer的视听广义零次学习方法。具体来说,使用注意力机制来学习数据的内部信息,增强不同模态的信息交互,以捕捉视听数据之间的语义一致性;为了度量不同概率分布之间的差异和类别之间的一致性,引入了Kullback-Leibler(KL)散度和余弦相似度损失。为了评估所提方法,在VGGSound-GZSL^(cls),UCF-GZSL^(cls)和ActivityNet-GZSL^(cls)3个基准数据集上进行测试。大量的实验结果表明,所提方法在3个数据集上都取得了最先进的性能。 展开更多
关键词 视听零次学习 视频分类 注意力机制 KL散度
在线阅读 下载PDF
鸽子MVL核团对视频迁移实物目标识别的神经表征
3
作者 李晓媛 任立庆 +2 位作者 刘登辉 李贺 程涵 《郑州大学学报(工学版)》 北大核心 2025年第4期1-7,共7页
为探究鸽子基于视频学习迁移实物目标识别的神经机制,设计了目标导向式训练系统。首先,通过行为学对比发现,经视频训练的鸽子在实物迁移测试中正确率显著高于对照组,验证了鸽子具有视觉认知迁移能力。其次,利用微电极记录鸽子MVL核团的... 为探究鸽子基于视频学习迁移实物目标识别的神经机制,设计了目标导向式训练系统。首先,通过行为学对比发现,经视频训练的鸽子在实物迁移测试中正确率显著高于对照组,验证了鸽子具有视觉认知迁移能力。其次,利用微电极记录鸽子MVL核团的神经信号,基于Welch功率谱分析得到视觉识别任务的特征响应频带,并通过锁相值构建脑功能网络。结果表明:在视频和实物识别中,目标与干扰状态下的脑网络平均节点度、聚类系数和全局效率均存在显著差异;但视频目标与实物目标,视频干扰与实物干扰的网络特征无差异,这表明MVL核团通过提取视频与实物的共有特征实现跨模式迁移,揭示了MVL脑区在视觉认知迁移学习中的关键作用。 展开更多
关键词 视频学习 视觉认知迁移学习 MVL核团 锁相值 脑功能网络
在线阅读 下载PDF
视频小卫星目标跟踪视野分区防脱靶控制
4
作者 范才智 钟子凯 +1 位作者 王猛猛 杨跃能 《国防科技大学学报》 北大核心 2025年第3期98-108,共11页
针对视频小卫星与观测目标存在较大初始相对姿态偏差和角速度,目标容易偏离相机视场造成脱靶的问题,设计了一种视频小卫星目标跟踪视野分区防脱靶控制方法,该方法将星载相机矩形成像视野按照内切圆划分为内外两部分,内切圆内部和外部分... 针对视频小卫星与观测目标存在较大初始相对姿态偏差和角速度,目标容易偏离相机视场造成脱靶的问题,设计了一种视频小卫星目标跟踪视野分区防脱靶控制方法,该方法将星载相机矩形成像视野按照内切圆划分为内外两部分,内切圆内部和外部分别基于势函数和拟欧拉旋转法设计跟踪控制器,并利用Barbalat引理证明两个区域控制律的渐近稳定性,同时在理论上证明了目标进入视野内切圆区域后,在基于势函数的控制器作用下可以确保不脱靶。通过控制器对比仿真,结果表明拟欧拉旋转法相比于比例-微分(proportional-derivative,PD)控制具有更强的抑制目标偏离视场能力,结合拟欧拉旋转法和势函数法的视野分区控制与全视场的拟欧拉旋转法相比,能够有效实现对较快速机动目标的防脱靶控制,从而实现连续跟踪观测。 展开更多
关键词 视频小卫星 势函数 拟欧拉旋转 视觉跟踪 防脱靶
在线阅读 下载PDF
Sora类文生视频模型驱动主流意识形态视觉叙事的困境及突破之道 被引量:2
5
作者 杨章文 《理论月刊》 北大核心 2025年第3期15-25,159,共12页
主流意识形态视觉叙事不仅是创新我国意识形态工作的可靠支点,也是应对由Sora类文生视频模型引发的信息传播模式变革、廓清西方意识形态渗透“迷雾”的重要路径。在文生视频时代,主流意识形态视觉叙事本然在于复归感性的对象性活动本位... 主流意识形态视觉叙事不仅是创新我国意识形态工作的可靠支点,也是应对由Sora类文生视频模型引发的信息传播模式变革、廓清西方意识形态渗透“迷雾”的重要路径。在文生视频时代,主流意识形态视觉叙事本然在于复归感性的对象性活动本位,实然在于建构虚实共生的沉浸场景,应然在于实现技术驱动下的价值引领。基于“认知—情感—意动”理论的视角,Sora类文生视频模型驱动主流意识形态视觉叙事正面临着认知模式原子化、情感询唤虚拟化、意动行为畸形化的现实困境。破解主流意识形态视觉叙事的现实之困,实现叙事过程中的“知情意行同构”,应循守“致知”“激情”“诚意”“励行”的实践逻辑。其中,“知”重在筑牢认知高度,“情”力在追求情感温度,“意”旨在提升思想厚度,“行”意在突出实践力度,只有四者之间互动融合,才能不断优化主流意识形态视觉叙事的实践路径。 展开更多
关键词 SORA 文生视频模型 主流意识形态 视觉叙事 “认知—情感—意动”理论
在线阅读 下载PDF
地理动画中点要素注记稳定更新的遗传算法
6
作者 魏智威 杨乃 +2 位作者 丁愫 陈业滨 郭仁忠 《测绘通报》 北大核心 2025年第8期83-88,94,共7页
针对地理动画中点要素的注记更新问题,本文提出了一种基于遗传算法的注记配置优化方法。该方法旨在提高地理动画中注记的时序稳定性,避免帧间注记位置的频繁变化和冲突。通过对注记配置约束条件进行分析,综合考虑了注记压盖、位置优先... 针对地理动画中点要素的注记更新问题,本文提出了一种基于遗传算法的注记配置优化方法。该方法旨在提高地理动画中注记的时序稳定性,避免帧间注记位置的频繁变化和冲突。通过对注记配置约束条件进行分析,综合考虑了注记压盖、位置优先级、关联性及时序稳定性等多种因素,并提出了一种自适应调整的遗传算法,以优化地理动画注记的配置效果。为验证该方法,开发了相应的地理动画制作工具原型。试验结果表明,该方法能够有效减少地理动画中帧间注记位置的变化,优化了注记的视觉效果,但是也略微增加了算法耗时。 展开更多
关键词 视频GIS 注记配置 地理可视化 动态可视化 遗传算法
在线阅读 下载PDF
生物启发的运动人群瓶颈效应感知视觉神经网络
7
作者 陆显佩 胡滨 《计算机应用研究》 北大核心 2025年第8期2274-2282,共9页
在大型活动中,人群瓶颈效应是常导致拥挤甚至踩踏等灾难事件的重要前兆。然而目前针对人群瓶颈效应检测的计算模型研究工作较少,且由于这种效应随机性强、人群状态复杂多变,传统的计算模型检测效果并不理想。为解决这一问题,在借鉴蝗虫... 在大型活动中,人群瓶颈效应是常导致拥挤甚至踩踏等灾难事件的重要前兆。然而目前针对人群瓶颈效应检测的计算模型研究工作较少,且由于这种效应随机性强、人群状态复杂多变,传统的计算模型检测效果并不理想。为解决这一问题,在借鉴蝗虫视觉系统神经结构特性的基础上,结合蝗虫LGMD危险感知机理,提出了一种运动人群瓶颈效应感知视觉神经网络(CBEPVNN)。该模型模拟蝗虫和哺乳动物视觉信息处理特点,整合视野域中人群活动所引发的视觉运动信息,利用LGMD神经元危险感知机理构建尖峰阈值机制调谐神经网络输出,以感知视觉场景中的运动人群瓶颈效应。实验结果表明,CBEPVNN能够有效感知视频序列中的运动人群瓶颈效应,并产生强烈的偏好性响应。该工作涉及生物视神经机理启发的人群动态视觉信息处理机制,可为智能视频监控中的异常人群活动检测与行为分析提供新的思路与方法。 展开更多
关键词 人群异常活动分析 人群瓶颈效应 LGMD 蝗虫视觉神经系统 神经尖峰响应 智能视频监控
在线阅读 下载PDF
走向视觉:“发光世界”中学习数字化转型的特征与路径
8
作者 苏慧丽 张敬威 《江苏高教》 北大核心 2025年第8期105-112,共8页
随着OpenAI发布新一代AI视频模型Sora,证明人工智能不仅能够通过语言模拟人类思维能力,还能够通过图像、视频模拟现实物理世界,标志着“视频化社会”作为新的技术社会形态的到来。在“视频化社会”背景下,人类学习的媒介从抽象的文字符... 随着OpenAI发布新一代AI视频模型Sora,证明人工智能不仅能够通过语言模拟人类思维能力,还能够通过图像、视频模拟现实物理世界,标志着“视频化社会”作为新的技术社会形态的到来。在“视频化社会”背景下,人类学习的媒介从抽象的文字符号将逐渐走向更具高维性、通用性与交互性的视觉化技术。这一技术的发展构造了“发光世界”,在这一世界中的学习者能够通过“图像”构造学习的“外主体”,能够以“屏幕”为中介在虚拟场域中获取知识经验,能够于现实与虚拟的凝视下重构学习的权力关系。因此,学习的数字化转型应基于视觉技术的发展与应用,通过视觉技术促进虚拟自我与真实自我的弥合,构建学习者的“理想—我”;通过构建高维全息化虚拟空间建构拟真学习空间,获取真实知识经验;教育者应作为负责任的调节者,整合碎片化信息流,促使学生重构认识世界的批判性框架。 展开更多
关键词 人工智能 视觉技术 “发光世界” 学习数字化转型 “视频化社会”
在线阅读 下载PDF
火场三维建模在火灾视频光影分析中的应用
9
作者 王晓军 宋丞玉 +1 位作者 杨天乐 王鑫 《消防科学与技术》 北大核心 2025年第6期862-868,876,共8页
以两起火灾事故调查为例,介绍了火灾现场三维建模在火灾视频光影分析中的应用。通过火场三维建模技术与几何作图法的结合,分析了一起民房火灾起火过程中火光光源位置的变化和火灾的蔓延过程。通过火场三维建模技术在光影分析中的独立应... 以两起火灾事故调查为例,介绍了火灾现场三维建模在火灾视频光影分析中的应用。通过火场三维建模技术与几何作图法的结合,分析了一起民房火灾起火过程中火光光源位置的变化和火灾的蔓延过程。通过火场三维建模技术在光影分析中的独立应用,分析了一起客厅火灾中起火初期火光光源的位置。在此基础上,分析了火场三维建模技术在火灾视频光影分析中的优势和实践中应注意的事项,为火场三维建模在火灾视频光影分析中的应用提供了方法参考。 展开更多
关键词 三维建模 现场可视化 火灾视频 光影分析 火灾调查
在线阅读 下载PDF
VideoLog可视化测井油管接箍自动识别方法 被引量:7
10
作者 阚绍佑 巨亚锋 +2 位作者 梁万银 姚强 吴银川 《西安石油大学学报(自然科学版)》 CAS 北大核心 2020年第6期115-118,123,共5页
在可视化测井中,深度对于判断油管缺陷位置至关重要,而现有的测深系统具有一定的深度误差。实际工程中,可通过识别油管接箍再参照油管数据表来准确标定仪器的深度。本文基于运动视频图像处理,提出了一种油管接箍自动识别方法。利用Video... 在可视化测井中,深度对于判断油管缺陷位置至关重要,而现有的测深系统具有一定的深度误差。实际工程中,可通过识别油管接箍再参照油管数据表来准确标定仪器的深度。本文基于运动视频图像处理,提出了一种油管接箍自动识别方法。利用VideoLog可视化测井系统采集井下油管视频图像,通过对视频图像进行形态学处理、特征参数提取、接箍判决等过程来准确识别接箍。实验结果表明,同一个接箍在视频中会多次出现,也会被多次识别到,同一接箍平均识别率为86.9%,接箍计数的正确率为100%。方法已成功用于可视化测井视频解释处理中,取得了较好的工程应用效果。 展开更多
关键词 接箍识别 视频图像处理 可视化测井 井深测量 测井解释
在线阅读 下载PDF
基于Visual C#.NET的火炮窥膛录像软件研究与实现 被引量:6
11
作者 曹营修 郑雨昊 +1 位作者 郑立评 朱建杰 《现代电子技术》 北大核心 2018年第22期45-48,共4页
简述火炮窥膛录像设备主要硬件组成及功能,运用Visual Studio 2010可视化集成环境,基于Visual C#.NET开发火炮窥膛录像设备软件,设计软件功能,实现6大功能模块。将数据流实时传输到计算机中,于软件界面视频窗口观测身管内膛状态,并且具... 简述火炮窥膛录像设备主要硬件组成及功能,运用Visual Studio 2010可视化集成环境,基于Visual C#.NET开发火炮窥膛录像设备软件,设计软件功能,实现6大功能模块。将数据流实时传输到计算机中,于软件界面视频窗口观测身管内膛状态,并且具有录像数据留存功能。通过实炮实验得知,软件兼容火炮窥膛录像设备,通过IP地址、用户名和密码登录后能够清晰观测身管内部形貌,并可实现录像保存等功能。 展开更多
关键词 visualC#.NET 火炮窥膛 视频录像 软件开发 可视化 数据流
在线阅读 下载PDF
人工智能技术驱动视觉传达作品生成研究综述 被引量:10
12
作者 王瑶 陈登凯 余隋怀 《包装工程》 CAS 北大核心 2024年第6期188-196,共9页
目的为改进人工智能技术驱动视觉传达作品的生成方式,提升视觉传达作品的生成质量并为视觉传达设计效率提供理论支撑。方法基于Scopus和中国知网数据库下载并整理相关文献,分析现有人工智能技术驱动视觉传达作品生成的关键技术、研究方... 目的为改进人工智能技术驱动视觉传达作品的生成方式,提升视觉传达作品的生成质量并为视觉传达设计效率提供理论支撑。方法基于Scopus和中国知网数据库下载并整理相关文献,分析现有人工智能技术驱动视觉传达作品生成的关键技术、研究方向,以及研究方法。结论通过精读文献划分出目前人工智能技术驱动视觉传达作品生成的研究方向,包含以文字生成图像、以图像生成图像,以及视频生成。提取各研究方向中所采用的研究方法,涵盖生成对抗网络、知识推理、空间自适应等。通过分析人工智能技术驱动视觉作品生成的研究现状及方向,进一步总结和归纳研究方向和方法,为未来设计师应对复杂设计挑战开辟了新路径,同时为未来人工智能技术赋能视觉传达作品生成提供了参考和依据。 展开更多
关键词 人工智能技术 视觉传达作品 图像生成 视频生成
在线阅读 下载PDF
基于计算机视觉的电力作业人员行为分析研究现状与展望 被引量:6
13
作者 闫云凤 陈汐 +3 位作者 金浩远 齐冬莲 储海东 汪金维 《高电压技术》 EI CAS CSCD 北大核心 2024年第5期1842-1854,共13页
电力作业人员的有效监管是保障电力安全生产的基础。该文对电力视频中作业人员的行为识别研究进行了归类总结,涵盖静态行为分析(穿戴分析、动作分析和组合分析)和动态行为分析(复杂动作、时序行为和行为预测等);详细综述了电力作业行为... 电力作业人员的有效监管是保障电力安全生产的基础。该文对电力视频中作业人员的行为识别研究进行了归类总结,涵盖静态行为分析(穿戴分析、动作分析和组合分析)和动态行为分析(复杂动作、时序行为和行为预测等);详细综述了电力作业行为分析中的核心算法模块,包括目标检测、姿态估计和视频跟踪等;论述了电力作业行为识别在算法高效性、鲁棒性、灵活性等方面所面临的应用难点和挑战,并展望了电力作业行为智能监控领域的未来发展方向,特别强调了在软硬件结合、通用大模型、生成式人工智能方面进行技术创新和改进所蕴含的潜在机会。 展开更多
关键词 行为分析 视觉理解 电力监控 目标检测 姿态估计 视频跟踪 行为预测
在线阅读 下载PDF
基于多层级视频Transformer的视觉自动定位方法
14
作者 邹琦萍 李博涛 +2 位作者 陈赛安 郭茜 张桃红 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第6期34-43,共10页
工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清... 工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清晰的视频帧作为自动加工中有聚焦要求的距离指导,以进行聚焦异常修正,从而实现自动定位。提出一种基于多层级视频Transformer的视频分类模型多级视频Transformer(MLVT)用于高语义级别的视频表征学习,并用于选出视频序列中成像最清晰的帧。首先,提出一种具有多种感受野的token划分方法多级标记(MLT),能够将原始视频数据按2D图像补丁、3D图像补丁、帧和片段这4个层级划分成token序列,并在加入位置编码之后送入多级编码器(MLE)方法进行注意力的计算。为了缓解多层级的tokens带来的计算代价和收敛速度慢的问题,MLE引入一种逐层的可变形注意力机制逐层可变形注意力机制(LWLA),以一种可学习的方式代替全局注意力进行特征相似性的计算。最终,该方法3个版本的模型在本文的视频数据集上分别取得了87.2%、88.6%、88.9%的分类准确率,在与同参数量级的主流视频Transformer实验对比中均表现了最优的性能,有效地完成了从视频序列中选择出最清晰帧的任务,能够为下游视觉任务的性能提供强有力保障。 展开更多
关键词 视频Transformer 视频分类 视觉自动定位 可变形注意力
在线阅读 下载PDF
长视频的超级帧切割视觉内容解释方法
15
作者 魏英姿 刘王杰 《北京工业大学学报》 CAS CSCD 北大核心 2024年第7期805-813,共9页
针对现有基于编码解码的视频描述方法存在的对视频较长、在视频场景切换频繁情况下视觉特征提取能力不足或关键性片段捕获能力不足等视频描述不佳的问题,提出一种基于超级帧切割长视频的视频字幕方法。首先,提出超级帧提取算法,计算关... 针对现有基于编码解码的视频描述方法存在的对视频较长、在视频场景切换频繁情况下视觉特征提取能力不足或关键性片段捕获能力不足等视频描述不佳的问题,提出一种基于超级帧切割长视频的视频字幕方法。首先,提出超级帧提取算法,计算关键视频时间占比率以满足视频浏览时长限制,缩短视频检索时间。然后,构建两层筛选模型以自适应提取超级帧,过滤冗余关键帧,执行多场景语义描述。将保留的关键帧嵌入周围帧,利用深层网络模型以及小卷积核池化采样域获取更多的视频特征,克服了经典视频标题方法不能直接用于处理长视频的困难。最后,通过用长短时记忆模型代替循环神经网络解码生成视频标题,给出视频内容的分段解释信息。在YouTube数据集视频、合成视频和监控长视频上进行测试,采用多种机器翻译评价指标评估了该方法的性能,均获得了不同程度的提升。实验结果表明,该方法在应对视频场景切换频繁、视频较长等挑战时,能够获得较好的片段描述。 展开更多
关键词 超级帧切割 时间占比率 多场景语义 视觉特征 长短时记忆模型 视频标题
在线阅读 下载PDF
视频宣教模式对完全植入式静脉输液港自我维护的应用价值 被引量:1
16
作者 吴燕燕 刘国涛 +3 位作者 葛文程 凌燕 杨亚娟 蒋英 《介入放射学杂志》 CSCD 北大核心 2024年第12期1355-1359,共5页
目的探讨视频健康宣教模式在完全植入式静脉输液港(totally implantable venous access ports,TIVAP)自我维护中的应用价值。方法纳入2021年9月至2022年12月海军军医大学第二附属医院接受TIVAP植入手术的患者208例,随机将患者分为对照组... 目的探讨视频健康宣教模式在完全植入式静脉输液港(totally implantable venous access ports,TIVAP)自我维护中的应用价值。方法纳入2021年9月至2022年12月海军军医大学第二附属医院接受TIVAP植入手术的患者208例,随机将患者分为对照组108例,观察组100例。对照组患者予以传统健康宣教,观察组患者在此基础予以基于视觉传达理论的视频宣教。采用自我护理能力实施量表(ESCA)评估两组干预前、置港6个月后的自护能力,分析对比两组并发症、不良事件发生率及留港时长。结果干预前两组ESCA表中各维度及总分比较,差异无统计学意义(P>0.05),干预后观察组ESCA表中各维度及总分高于对照组(P<0.05);干预后,观察组并发症总发生率明显低于对照组(P<0.05),不良事件总发生率明显低于对照组(P<0.05),且观察组TIVAP留置时间明显长于对照组。结论采用视频健康宣教模式可显著提升患者TIVAP自我护理能力,降低并发症与不良事件发生率,延长TIVAP使用时长,是一种有效的TIVAP健康宣教模式。 展开更多
关键词 完全植入式静脉输液港 视觉传达 视频 健康宣教
在线阅读 下载PDF
多尺度视觉特征提取及跨模态对齐的连续手语识别 被引量:1
17
作者 郭乐铭 薛万利 袁甜甜 《计算机科学与探索》 CSCD 北大核心 2024年第10期2762-2769,共8页
连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方... 连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方法主要包含多尺度视觉特征提取模型和跨模态对齐约束。在多尺度视觉特征提取模型中,并行地融合具备不同扩张因子的瓶颈残差结构,来丰富多尺度时序感受野,用于提取不同时序长度的手语视觉特征,同时采用层级复用设计进一步强化视觉特征表示。在跨模态对齐约束中,采用动态时间规整建模手语视觉特征和文本特征之间的内在联系,其中,文本特征提取由多层感知机和长短期记忆网络协作实现。在具备挑战性的公开数据集RWTH-2014、RWTH-2014T、CSL-Daily上进行实验,结果表明所提方法达到目前具有竞争力的性能。上述实验验证了所提的采用多尺度的方式可以捕捉不同时序长度的手语动作,以及构建跨模态对齐约束的思路是正确且有效的,适用于弱监督条件下的连续手语识别任务。 展开更多
关键词 连续手语识别 多尺度 跨模态对齐约束 视频视觉特征 文本特征
在线阅读 下载PDF
视听信息披露与投资者市场反应:基于上市公司入驻抖音的自然实验 被引量:1
18
作者 梁田 俞明轩 《中国软科学》 CSSCI CSCD 北大核心 2024年第S1期412-427,共16页
我国社交媒体发展在变迁历史中经历了不同的发展阶段,当前已步入内容共生与多元形式融合的阶段。此发展可能源于资本市场的信息需求。在总结视听信息披露的基础上,选择抖音这一场景,通过理论探讨和实证检验,试图为我国短视频类社交媒体... 我国社交媒体发展在变迁历史中经历了不同的发展阶段,当前已步入内容共生与多元形式融合的阶段。此发展可能源于资本市场的信息需求。在总结视听信息披露的基础上,选择抖音这一场景,通过理论探讨和实证检验,试图为我国短视频类社交媒体对资本市场反应的影响提供证据。实证结果发现:上市公司通过入驻抖音,当日发布的首个视听信息会带来正向显著的短期市场反应。具体而言:一是上市公司入驻抖音当日发布首个视听信息,其内容包含经营性增量信息会产生正向的短期市场反应。二是上市公司入驻抖音当日发布经营性增量信息分别与投资者之间的互动性组合也能显著提高短期市场反应。不仅拓展了关于社交媒体信息效应的经济后果研究,还为数字经济的发展提供了新启示。 展开更多
关键词 视听信息披露 短视频类社交媒体 上市公司入驻抖音 短期市场反应
在线阅读 下载PDF
结合视觉舒适度的无参考立体视频稳像效果评价
19
作者 吴剑荣 黄华 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第9期1341-1350,共10页
立体视频稳像效果评价是评价立体视频稳像算法性能的有效途径.针对当前缺乏立体视频稳像效果客观评价方法的问题,提出一种结合视觉舒适度的无参考立体视频稳像效果评价方法.将立体视频稳像前后的运动平滑度和视觉舒适度变化作为视频稳... 立体视频稳像效果评价是评价立体视频稳像算法性能的有效途径.针对当前缺乏立体视频稳像效果客观评价方法的问题,提出一种结合视觉舒适度的无参考立体视频稳像效果评价方法.将立体视频稳像前后的运动平滑度和视觉舒适度变化作为视频稳像前后的变化特征,结合主观评价训练得到立体视频稳像效果评价的支持向量回归模型;回归模型通过学习立体视频稳像前后的变化特征与主观评价结果之间的关系,最终获得直接评价任意立体视频稳像效果的能力.使用收集的55条仿真视频训练模型,并在10条真实视频上进行实验的结果表明,所提方法的稳定性较好,在视频量达到180条时,模型的评价结果趋于稳定,且模型评价结果与主观评价结果相关性达到93%,可用于立体视频稳像效果的客观评价. 展开更多
关键词 立体视觉 视频稳像 视频质量评价 视觉舒适度
在线阅读 下载PDF
基于语言-视觉对比学习的多模态视频行为识别方法 被引量:3
20
作者 张颖 张冰冰 +3 位作者 董微 安峰民 张建新 张强 《自动化学报》 EI CAS CSCD 北大核心 2024年第2期417-430,共14页
以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模... 以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM),首先,由视频采样帧的类别分词做线性变换得到虚拟帧分词;然后,对其进行基于时序卷积和虚拟帧分词移位的时序建模操作,有效建模视频中的时空变化信息;最后,在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module,VPM),通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达.在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果,验证了该多模态模型的有效性和泛化性. 展开更多
关键词 视频行为识别 语言-视觉对比学习 多模态模型 时序建模 提示学习
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部