期刊文献+
共找到364篇文章
< 1 2 19 >
每页显示 20 50 100
基于多模态融合Transformer的视听广义零次学习方法
1
作者 杨静 李小勇 +3 位作者 阮小利 李少波 唐向红 徐计 《电子与信息学报》 北大核心 2025年第7期2375-2384,共10页
视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提... 视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提出了基于Transformer的视听广义零次学习方法。具体来说,使用注意力机制来学习数据的内部信息,增强不同模态的信息交互,以捕捉视听数据之间的语义一致性;为了度量不同概率分布之间的差异和类别之间的一致性,引入了Kullback-Leibler(KL)散度和余弦相似度损失。为了评估所提方法,在VGGSound-GZSL^(cls),UCF-GZSL^(cls)和ActivityNet-GZSL^(cls)3个基准数据集上进行测试。大量的实验结果表明,所提方法在3个数据集上都取得了最先进的性能。 展开更多
关键词 视听零次学习 视频分类 注意力机制 KL散度
在线阅读 下载PDF
解说音对旅游短视频传播认同度的影响研究
2
作者 胡明明 胡琼月 杨丽梅 《旅游学刊》 北大核心 2025年第6期68-79,共12页
旅游短视频对旅游营销推广和形象打造至关重要,其中,解说音作为信息传递的核心部分,直接影响用户的观看体验。文章基于精细加工可能性模型,探究解说音对旅游短视频传播认同度的影响,实证研究发现:1)解说音对旅游短视频传播认同度具有显... 旅游短视频对旅游营销推广和形象打造至关重要,其中,解说音作为信息传递的核心部分,直接影响用户的观看体验。文章基于精细加工可能性模型,探究解说音对旅游短视频传播认同度的影响,实证研究发现:1)解说音对旅游短视频传播认同度具有显著的正向影响;2)视频时长、发布者官方身份认证和发布者作品均赞数在解说音与旅游短视频传播认同度的关系中起调节作用;3)采用真人语调、以个人感悟为解说音类型的旅游短视频传播认同度显著更高,相比之下,解说口音的地域差异及解说者的性别对旅游短视频传播认同度的影响不显著。研究成果为旅游企业及旅游目的地在利用短视频进行品牌宣传与市场营销时提供理论指导与实践启示。 展开更多
关键词 旅游短视频 解说音 精细加工可能性模型 传播认同度 旅游营销
在线阅读 下载PDF
利用监控录像估算宏观烈度和强地面运动参数——以2025年西藏定日M6.8地震为例
3
作者 郑怡 杨小林 马海超 《震灾防御技术》 北大核心 2025年第1期24-31,共8页
2025年1月7日西藏定日县发生了M6.8破坏性地震,震区中的一些监控录像清晰地拍摄到了震害及地震动过程。为了挖掘这些视频所记录的宏观烈度和强地面运动参数等信息,本研究尝试采用数字视频和音频分析等方法,对其中7个监控录像进行了诊断... 2025年1月7日西藏定日县发生了M6.8破坏性地震,震区中的一些监控录像清晰地拍摄到了震害及地震动过程。为了挖掘这些视频所记录的宏观烈度和强地面运动参数等信息,本研究尝试采用数字视频和音频分析等方法,对其中7个监控录像进行了诊断。结果表明:(1)6个超市所在地的宏观烈度值约为Ⅴ~Ⅶ度;(2)某民用住宅处的强地面运动持续时间约为20~25 s,并在第7 s时达到峰值;(3)利用建筑金属构件和器皿的响动声,可以间接表征当地强地面运动的主过程。该研究不仅能补充定日地震的宏观烈度和强震动记录,而且能为数智时代下的宏观烈度调查和强震动视觉测量等提供参考。 展开更多
关键词 定日M6.8地震 监控录像 音频记录 宏观烈度 强地面运动参数
在线阅读 下载PDF
基于深度学习的人脸动画驱动方法综述 被引量:1
4
作者 刘龙 李浩生 +3 位作者 张梦璇 杜莹 常雅淇 张文博 《西安电子科技大学学报》 北大核心 2025年第2期57-84,共28页
人脸动画技术旨在通过输入源数据(如音频或视频)动态驱动静态人脸图像,以产生逼真的动画效果。深度学习技术的发展极大地推动了人脸动画技术的进步,深度学习模型能够学习并捕捉面部特征与运动规律,通过自动化驱动过程实现具有真实性与... 人脸动画技术旨在通过输入源数据(如音频或视频)动态驱动静态人脸图像,以产生逼真的动画效果。深度学习技术的发展极大地推动了人脸动画技术的进步,深度学习模型能够学习并捕捉面部特征与运动规律,通过自动化驱动过程实现具有真实性与个性化表达的人脸动画。目前,基于深度学习的人脸动画领域已有大量研究成果,但现有的综述多聚焦于特定技术或单一模态的驱动源,文中系统地综述了基于深度学习的人脸动画驱动技术,分别按照音视频驱动面部动画的流程总结研究现状。首先,介绍了从输入源数据提取面部特征的一般步骤;其次,深入分析了特征提取与动画合成的关键技术,并对比不同深度学习网络架构在各步骤的优劣;最后,总结不同架构下的动画生成方法并比较异同。此外,还列举了人脸动画方法常用的数据集及评价指标,总结了领域内现存挑战,进一步阐述了未来工作的发展趋势并做出一些展望,旨在为研究人员提供深度学习在人脸动画领域应用的更全面视角。 展开更多
关键词 人脸动画 深度学习 音视频驱动 虚拟人 研究综述
在线阅读 下载PDF
智能实时音视频网络的总体设计
5
作者 陈俊江 申光 《中兴通讯技术》 北大核心 2025年第1期63-70,共8页
互动性更高、沉浸感更强的实时音视频业务交互需求,驱动着音视频承载网络升级变革。针对传统音视频网络服务质量(QoS)效果不佳、网络流量不均衡、吞吐量低等一系列挑战,创新性地提出智能实时音视频网络(SRTN)理念。基于云网融合、云边... 互动性更高、沉浸感更强的实时音视频业务交互需求,驱动着音视频承载网络升级变革。针对传统音视频网络服务质量(QoS)效果不佳、网络流量不均衡、吞吐量低等一系列挑战,创新性地提出智能实时音视频网络(SRTN)理念。基于云网融合、云边端协同等思想,设计了多业务融合调度系统,研发出一系列创新技术和方案,提供低时延、高质量、大并发、高可靠的智能化音视频交互服务。SRTN有望成为一种面向下一代音视频应用的全新基础设施,为用户提供更优质的音视频智能体验。 展开更多
关键词 实时音视频通信 云网融合 融合调度 统一媒体网络
在线阅读 下载PDF
全数字化多媒体技术的代表──DVI(Digital Video Iteractive)系统 被引量:1
6
作者 陈一民 《上海大学学报(自然科学版)》 CAS CSCD 1995年第5期557-563,共7页
本文介绍了数字视频交互(DVI)技术的发展概况.详细论述了DVI的硬件结构和组成原理,并论述了DVI系统软件平台的构成以及它的核心软件AVK的组成和原理.
关键词 多媒体 数字视频交互 全数字化多媒体
在线阅读 下载PDF
Video CD播放系统设计
7
作者 林福宗 赵立人 《小型微型计算机系统》 CSCD 北大核心 1995年第3期29-34,共6页
目前国内外正在出现开发VideoCD系列产品的热潮,就象几年前从磁带录音机转向激光唱机那样,呈现一种从录象机(VCR)转向数字视盘(VideoCD)播放机的趋势。本文的前半部分介绍设计VideoCD播放系统要涉及到的... 目前国内外正在出现开发VideoCD系列产品的热潮,就象几年前从磁带录音机转向激光唱机那样,呈现一种从录象机(VCR)转向数字视盘(VideoCD)播放机的趋势。本文的前半部分介绍设计VideoCD播放系统要涉及到的重要标准,着重解释了WhiteBook和MPEG压缩算法;后半部分阐述播放系统的设计方案和策略,详细说明国内潜在市场很大的VideoCD播放机设计方案。 展开更多
关键词 数字视盘 播放系统 V-CD播放机
在线阅读 下载PDF
基于区域显著性与空间特征提取的说话人像合成方法
8
作者 王邢波 张浩 +2 位作者 高浩 翟明亮 谢九成 《计算机科学》 北大核心 2025年第3期58-67,共10页
音频驱动的说话人像合成技术致力于将任意的输入音频序列转换为逼真的说话人像视频。近期,基于神经辐射场(NeRF)的多个说话人像合成工作取得了优秀的视觉效果。但是,此类工作仍普遍存在着语音-嘴唇同步欠佳、躯干抖动和合成视频清晰度... 音频驱动的说话人像合成技术致力于将任意的输入音频序列转换为逼真的说话人像视频。近期,基于神经辐射场(NeRF)的多个说话人像合成工作取得了优秀的视觉效果。但是,此类工作仍普遍存在着语音-嘴唇同步欠佳、躯干抖动和合成视频清晰度较低等不足。为了解决上述问题,提出了一种基于区域显著特征和空间体积特征的高保真说话人像合成方法。具体而言,一方面,开发了一个区域显著性感知模块用于头部建模。它利用多模态输入信息动态调整头部空间点的体积特征,同时优化基于哈希表的特征存储,从而提高面部细节表征的精确度和渲染效率。另一方面,设计了一个空间特征提取模块用于躯干的独立建模。不同于现有方法普遍采用的直接基于躯干表面空间点坐标估计其颜色和密度的方式,该模块利用参考图像构建躯干场以提供对应的纹理和几何先验,从而实现更清晰的躯干渲染和自然的躯干运动。应用于多个人物主体的实验结果表明,在自我重建场景中,所提方法相较于当前最优的基线模型,在图像质量上(PSNR,LPIPS,FID,LMD)分别取得了10.15%,12.12%,0.77%和1.09%的提升,在嘴唇同步精度上(AUE)提高了14.20%。此外,在交叉驱动(使用非训练集音频)的场景下,该算法在嘴唇同步精度(AUE)上提升了4.74%。 展开更多
关键词 说话人像合成 三维重建 音视频同步 神经辐射场 注意力机制
在线阅读 下载PDF
作为“事件性媒介”的监控录像短视频——以事件现象学为视域 被引量:2
9
作者 吴果中 董破冰 《湖南大学学报(社会科学版)》 CSSCI 北大核心 2024年第4期151-160,共10页
监控录像短视频作为视频监控技术与短视频耦合的新型媒介形态,并不能被简单地归为一种监视媒介。以海德格尔、马里翁等的事件现象学为理论透镜,融贯伊德、克莱默尔的技术/媒介中介论,监控录像短视频更应被视为一种直观、原初地呈现事件... 监控录像短视频作为视频监控技术与短视频耦合的新型媒介形态,并不能被简单地归为一种监视媒介。以海德格尔、马里翁等的事件现象学为理论透镜,融贯伊德、克莱默尔的技术/媒介中介论,监控录像短视频更应被视为一种直观、原初地呈现事件的“事件性媒介”。在媒介本体层面上,监控录像短视频可以被规定为一种由“事件—媒介—主体”的三元关系构成的“事件媒介”,依靠监控摄像头的“全时空”部署与短视频的媒介渠道,实现对事件的接收与生成,为主体的在世生存提供了“超越的可能性”。监控录像短视频同时还是“媒介事件”的现实建构装置,它以物质性的事件为中介来实行“常识世界”的再生产,敞开了社会现实建构的实在性与开放性。 展开更多
关键词 监控录像短视频 事件性 事件现象学 媒介事件 媒介物质性
在线阅读 下载PDF
基于NBVTH算法的军用窄带信道视频传输研究
10
作者 王超 马驰 +2 位作者 刘荣 汪磊 李东 《火力与指挥控制》 CSCD 北大核心 2024年第1期139-143,150,共6页
随着信息技术快速发展,音视频传输广泛应用在军民用领域。针对军用环境通信传输带宽窄、电磁干扰强、网络稳定性低等特点,迫切需要对军用窄带信道下音视传输频编码进行优化。介绍了适应军用窄带信道传输的视频编码框架和最新技术,提出... 随着信息技术快速发展,音视频传输广泛应用在军民用领域。针对军用环境通信传输带宽窄、电磁干扰强、网络稳定性低等特点,迫切需要对军用窄带信道下音视传输频编码进行优化。介绍了适应军用窄带信道传输的视频编码框架和最新技术,提出了基于HEVC标准优化的窄带视频传输(NBVTH)算法,并在压缩比、压缩图像质量、编码时延等关键技术指标方面,将NBVTH算法与常用的H.264/AVC编码进行了性能对比分析。试验结果表明,NBVTH算法明显提升了编码性能,更加适用于军用窄带信道的视频传输。 展开更多
关键词 视频编码 窄带信道传输 音视频编码 性能对比
在线阅读 下载PDF
玻纤增强甲基丙烯酸酯基UV-CIPP材料抗弯性能及失效分析 被引量:1
11
作者 夏洋洋 方宏远 +2 位作者 张超 王翠霞 石明生 《材料导报》 EI CAS CSCD 北大核心 2024年第12期290-296,共7页
管道修复用紫外光原位固化(Ultraviolet cured-in-place pipe,UV-CIPP)材料是一种玻纤复合材料,其抗弯性能是评价管道修复效果以及材料优化设计所需的重要参考指标。以玻纤增强甲基丙烯酸酯基UV-CIPP材料为研究对象,考虑固化时间、固化... 管道修复用紫外光原位固化(Ultraviolet cured-in-place pipe,UV-CIPP)材料是一种玻纤复合材料,其抗弯性能是评价管道修复效果以及材料优化设计所需的重要参考指标。以玻纤增强甲基丙烯酸酯基UV-CIPP材料为研究对象,考虑固化时间、固化距离、紫外灯功率和材料厚度的影响,基于融合高清视频和SEM观测的三点弯曲试验,对玻纤增强甲基丙烯酸酯基UV-CIPP材料抗弯性能和失效机制进行了研究。结果表明,UV-CIPP材料的失效过程可以分为三个阶段:弹性阶段、基体开裂阶段和玻纤布断裂阶段,基体开裂、脱粘分层和纤维拉拔断裂是玻纤增强甲基丙烯酸酯基UV-CIPP材料弯曲失效的主要原因。在单一变量影响下,玻纤增强甲基丙烯酸酯基UV-CIPP材料弯曲强度和弯曲模量随固化时间、固化距离和紫外灯功率的增大均呈现出先增大后减小的趋势,随着材料厚度的增大却逐渐减小。本研究不仅为UV-CIPP材料的优化设计提供了参考依据,也为国产化UV-CIPP材料的发展奠定了重要基础。 展开更多
关键词 紫外光原位固化(UV-CIPP)材料 三点弯曲试验 高清视频 SEM 固化参数 材料厚度
在线阅读 下载PDF
西藏捌仟错深部卤水层电性结构特征及成因分析 被引量:1
12
作者 李卫强 于常青 +4 位作者 邹长春 张平川 杨凤清 柳胜春 汪洋 《科学技术与工程》 北大核心 2024年第22期9273-9281,共9页
为探测西藏捌仟错深部是否存在大面积的“卤源”,理清盐湖区深部卤水的分布特征、控制因素及物质来源,开展了1∶15000音频大地电磁探测,其中包含水域物理点12个,获得了深部纵向上“高-低-高-低”4层电阻率模型。结果显示在盐湖区南部发... 为探测西藏捌仟错深部是否存在大面积的“卤源”,理清盐湖区深部卤水的分布特征、控制因素及物质来源,开展了1∶15000音频大地电磁探测,其中包含水域物理点12个,获得了深部纵向上“高-低-高-低”4层电阻率模型。结果显示在盐湖区南部发育一组正断裂,这组断裂既可作为储水构造也可作为导水通道,形成导卤断裂带。在断裂露头处的含卤喷泉印证了本文观点。通过整理分析9口钻井资料,圈定了盐湖下方浅部卤水层的范围,并且发现该范围与第一套连续性较好的低电阻率层对应,推测该层为富水有利层。最后,通过分析卤水的化学元素成分及含量,结合新近系岩浆活动及构造背景,认为捌仟错卤水物质来源与火山活动相关。研究结果表明了音频大地测深是研究深层卤水的重要方法,证明了水域音频大地电磁(audio magnetotelluric,AMT)的可行性和有效性。 展开更多
关键词 捌千错盐湖 音频大地电磁 电阻率模型 电性结构特征 物质起源
在线阅读 下载PDF
以短视频为媒:物质性变更下的知识感知重塑及其社会文化效应 被引量:2
13
作者 李颖彦 申启武 《编辑之友》 CSSCI 北大核心 2024年第11期59-65,共7页
作为知识传播的新型基础设施,短视频以其强大的媒介逻辑与知觉技术形塑了互联网知识传播规则,并促使用户涵养出新的感知结构与行为模式。这种新的知识传播规则和感知模式在加深用户对知识速成与知识娱乐化追求的同时,也造成了知识权威... 作为知识传播的新型基础设施,短视频以其强大的媒介逻辑与知觉技术形塑了互联网知识传播规则,并促使用户涵养出新的感知结构与行为模式。这种新的知识传播规则和感知模式在加深用户对知识速成与知识娱乐化追求的同时,也造成了知识权威体系遭受冲击、思维浅薄化、“知识鸿沟”加剧等社会文化效应。在对知识类短视频进行研究的过程中,媒介物质性分析视角的运用能够从媒介装置的底层原理中理解和把握某种社会文化现象形成的原因,同时也为媒介批判研究开辟出更为本质直观的批判路径。 展开更多
关键词 知识 短视频 媒介物质性 感知结构 媒介化
在线阅读 下载PDF
基于软件无线电的音视频通信一体化方案 被引量:1
14
作者 汪奥 鄢秋荣 +2 位作者 李子雄 杜华 邱国振 《实验室研究与探索》 CAS 北大核心 2024年第8期99-103,151,共6页
为解决传统无线电平台对音视频传输误码率高、速率慢及设计复杂等问题,设计并提出基于ZYNQ和AD9361软件无线电方案。方案以IEEE802.11a协议为标准使用OFDM作为其主要调制技术,并通过网口实现ZYNQ与电脑主机之间的视频数据交互。功能测... 为解决传统无线电平台对音视频传输误码率高、速率慢及设计复杂等问题,设计并提出基于ZYNQ和AD9361软件无线电方案。方案以IEEE802.11a协议为标准使用OFDM作为其主要调制技术,并通过网口实现ZYNQ与电脑主机之间的视频数据交互。功能测试结果表明,通过该方案设计的系统在天线接收范围内能持续保持数据误码率为零,并可根据实际需求灵活调整参数。此外,设计的一体化终端具有高实用性、强可扩展性和低复杂性,可广泛应用于各种环境。方案为音视频通信一体化提供全新的解决思路和方法,对无线视频通信产品开发具有较好的价值和现实意义。 展开更多
关键词 软件无线电 音视频传输 正交频分复用
在线阅读 下载PDF
视听信息披露与投资者市场反应:基于上市公司入驻抖音的自然实验 被引量:1
15
作者 梁田 俞明轩 《中国软科学》 CSSCI CSCD 北大核心 2024年第S1期412-427,共16页
我国社交媒体发展在变迁历史中经历了不同的发展阶段,当前已步入内容共生与多元形式融合的阶段。此发展可能源于资本市场的信息需求。在总结视听信息披露的基础上,选择抖音这一场景,通过理论探讨和实证检验,试图为我国短视频类社交媒体... 我国社交媒体发展在变迁历史中经历了不同的发展阶段,当前已步入内容共生与多元形式融合的阶段。此发展可能源于资本市场的信息需求。在总结视听信息披露的基础上,选择抖音这一场景,通过理论探讨和实证检验,试图为我国短视频类社交媒体对资本市场反应的影响提供证据。实证结果发现:上市公司通过入驻抖音,当日发布的首个视听信息会带来正向显著的短期市场反应。具体而言:一是上市公司入驻抖音当日发布首个视听信息,其内容包含经营性增量信息会产生正向的短期市场反应。二是上市公司入驻抖音当日发布经营性增量信息分别与投资者之间的互动性组合也能显著提高短期市场反应。不仅拓展了关于社交媒体信息效应的经济后果研究,还为数字经济的发展提供了新启示。 展开更多
关键词 视听信息披露 短视频类社交媒体 上市公司入驻抖音 短期市场反应
在线阅读 下载PDF
文化唯物主义视角下文化、技术与产业的共生演进——以《黑神话:悟空》为案例 被引量:26
16
作者 李闯 《北京工业大学学报(社会科学版)》 CSSCI 北大核心 2024年第6期83-95,共13页
随着数字技术的迅猛发展,中华传统文化的传承与传播面临新的挑战与机遇。作为新兴的数字文化载体,电子游戏为文化传播开辟了创新途径。以《黑神话:悟空》为案例,从威廉斯的文化唯物主义视角探讨当代数字游戏如何在游戏文化体验、前沿3A... 随着数字技术的迅猛发展,中华传统文化的传承与传播面临新的挑战与机遇。作为新兴的数字文化载体,电子游戏为文化传播开辟了创新途径。以《黑神话:悟空》为案例,从威廉斯的文化唯物主义视角探讨当代数字游戏如何在游戏文化体验、前沿3A技术和产业崛起的三重作用下激活中华优秀传统文化IP。揭示了文化与技术的融合如何推动文化产业变革,以及产业演进如何反馈促进文化创新表达和技术进步。研究发现,高质量游戏内容与复杂游戏机制推动技术创新,技术进步又促进游戏内容优化,形成正向反馈循环。同时,游戏产业的工业化进程强化了游戏形式的多样化和精细化,进一步加速了文化、技术、产业三者螺旋上升的发展机制。在这一机制作用下,《黑神话:悟空》中的中华优秀传统文化在全球化背景下焕发出新活力,使电子游戏成为展示中华文化影响力的重要载体。 展开更多
关键词 文化唯物主义 中华文化国际传播 中华优秀传统文化 文化生产 黑神话悟空 电子游戏
在线阅读 下载PDF
短视频生产的物性转型及其文化批判 被引量:2
17
作者 柴冬冬 程文韬 《云南社会科学》 CSSCI 北大核心 2024年第6期155-164,共10页
短视频是一种新兴的可以聚合万物、重构物我关系,并持续制造品味的综合性数码物,具有重要的媒介功能,呈现出作为感官触达物、弥合认知物与理性归位物的不同属性。短视频的生产与传播也是物的弥散过程,是物在身体、界面、数字装置之间的... 短视频是一种新兴的可以聚合万物、重构物我关系,并持续制造品味的综合性数码物,具有重要的媒介功能,呈现出作为感官触达物、弥合认知物与理性归位物的不同属性。短视频的生产与传播也是物的弥散过程,是物在身体、界面、数字装置之间的往复运动,与其他物持续产生关联,形成短视频文化消费品味。品味的形成是由不可见变为可见、由实物变为符号的、由自在变为非自在,其背后是权力的分割与隐喻,涉及物的归类、渲染、遗弃及可见性的分配问题。物的弥散既有其积极性,但也容易使短视频滑向媒介奇观与感官狂欢逻辑,引发审美虚无。短视频的价值归位需构建作为审美物的文化生产范式,以美的属性与价值美学作为补充,同时还要聚焦引导创作者建立实在性审美立场,提升平台的美学运营意识,着力构建短视频的人民性文化实践审美风尚。 展开更多
关键词 物性转型 短视频文化 文化品味 审美虚化 短视频治理
在线阅读 下载PDF
改进AVSlowFast音视频融合模型对哺乳期母猪关键行为的识别 被引量:1
18
作者 李泊 陈天明 朱佳颖 《农业工程学报》 EI CAS CSCD 北大核心 2024年第7期182-190,共9页
哺乳期母猪的自动行为监测对于保障母猪健康并及时发现异常状态具有重要意义。为了在识别母猪行为中整合视觉和听觉信号蕴含的信息,该研究提出了一种基于音视频特征多模态融合的哺乳期母猪关键行为识别方法。首先,引入三分支结构的AVSlo... 哺乳期母猪的自动行为监测对于保障母猪健康并及时发现异常状态具有重要意义。为了在识别母猪行为中整合视觉和听觉信号蕴含的信息,该研究提出了一种基于音视频特征多模态融合的哺乳期母猪关键行为识别方法。首先,引入三分支结构的AVSlowFast模型作为基础网络,通过视频慢通道、视频快通道、音频通道有效挖掘在视觉和听觉2种模态下的相关行为特征,并基于多层次侧向连接深入融合视听觉模态信息。在此基础上,该研究在特征融合后期引入高斯上下文变换器通道注意力模块,在不新增模型参数的条件下进一步优化高维多模态三维特征的融合效果,提高行为识别的准确率。该研究以哺乳期母猪为对象,采集实际养殖环境中的音频与视频数据进行试验,试验结果表明基于改进AVSlowFast音视频融合模型识别进食、哺乳、睡眠、拱栏、饮水、日常活动6种关键行为的平均精确率与召回率分别为94.3%和94.6%。与基于SlowFast的单模态行为识别方法相比,该研究提出的方法对6种行为识别的平均F1分数上显著提升了12.7个百分点,为实现畜禽多模态行为监测提供了一种有效思路。 展开更多
关键词 行为识别 母猪 行为监测 音视频融合 多模态 通道注意力机制 AVSlowFast
在线阅读 下载PDF
语音驱动说话数字人视频生成方法综述 被引量:2
19
作者 刘颖 李济廷 +2 位作者 柴瑞坤 位纪伟 杨阳 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第6期911-921,共11页
近年来,深度学习技术的飞速发展极大地推动了虚拟数字人技术的进步,尤其是在说话数字人视频生成方面。该领域的研究在视频翻译、电影制作和虚拟助手等多个场景中展现出广阔的应用前景。该文对当前语音驱动说话数字人视频生成方法及研究... 近年来,深度学习技术的飞速发展极大地推动了虚拟数字人技术的进步,尤其是在说话数字人视频生成方面。该领域的研究在视频翻译、电影制作和虚拟助手等多个场景中展现出广阔的应用前景。该文对当前语音驱动说话数字人视频生成方法及研究现状进行了梳理与总结,并深入探讨了关键技术、数据集以及评估策略。在关键技术方面,生成对抗模型、扩散模型和神经辐射场等人工智能技术均发挥了重要作用。数据集的规模和多样性对于模型训练至关重要,而评估策略的完善则有助于更加客观地评价生成效果。说话数字人视频生成技术将继续面临众多挑战与机遇,期待该领域能够持续创新与发展,为人类社会带来更多便捷与乐趣。 展开更多
关键词 说话数字人 视频生成 生成对抗模型 扩散模型 神经辐射场 多模态融合
在线阅读 下载PDF
身份符号还是视听符号:政府反诈短视频中符号对情感唤醒及价值共创效果的影响 被引量:2
20
作者 张敏 张可 《图书情报知识》 CSSCI 北大核心 2024年第6期127-140,共14页
[目的/意义]探究政务反诈短视频中的身份符号和视听符号对用户情感唤醒与价值共创效果的影响,将情感唤醒体验作为联结符号互动与价值共创的中介因素,以揭示政务短视频价值共创过程机理。[研究设计/方法]基于情境模拟的实验方法收集用户... [目的/意义]探究政务反诈短视频中的身份符号和视听符号对用户情感唤醒与价值共创效果的影响,将情感唤醒体验作为联结符号互动与价值共创的中介因素,以揭示政务短视频价值共创过程机理。[研究设计/方法]基于情境模拟的实验方法收集用户体验数据,采用远程眼动仪收集情感唤醒数据,采用问卷量表收集价值共创效果数据,之后采用描述性统计、方差分析、回归分析等方法探究身份符号和视听符号对用户情感唤醒和价值共创效果造成的影响,采用Bootstrap法进行情感唤醒的中介效应检验。[结论/发现]政务短视频中的视听符号越丰富,用户情感唤醒和价值共创效果越好;身份符号中,受害者和诈骗罪犯符号带来的情感唤醒和价值共创效果最好,警察符号次之,明星符号最差,当自变量为视听符号-多,身份符号-受害者时,情感唤醒对价值共创效果有显著的中介作用。[创新/价值]采用非介入性的眼动实验方法收集情感数据,证明了在多模态信息刺激下,眼动信号用于情感识别的可行性;基于符号互动理论,从身份符号和视听符号两个角度阐释了政务短视频用户在微观心理层面的情感与认知互动机理,为提升政务短视频与用户深入的意义互动提供了实践参考。 展开更多
关键词 符号互动 身份符号 视听符号 情感唤醒 价值共创 反诈短视频
在线阅读 下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部