期刊文献+
共找到1,077篇文章
< 1 2 54 >
每页显示 20 50 100
On use of the alpha stable self-similar stochastic process to model aggregated VBR video traffic
1
作者 Huang Tianyun 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2006年第3期677-684,共8页
The alpha stable self-similar stochastic process has been proved an effective model for high variable data traffic. A deep insight into some special issues and considerations on use of the process to model aggregated ... The alpha stable self-similar stochastic process has been proved an effective model for high variable data traffic. A deep insight into some special issues and considerations on use of the process to model aggregated VBR video traffic is made. Different methods to estimate stability parameter a and self-similar parameter H are compared. Processes to generate the linear fractional stable noise (LFSN) and the alpha stable random variables are provided. Model construction and the quantitative comparisons with fractional Brown motion (FBM) and real traffic are also examined. Open problems and future directions are also given with thoughtful discussions. 展开更多
关键词 network modeling alpha stable self-similar process aggregated VBR video traffic long range dependence VARIABILITY linear regression.
在线阅读 下载PDF
基于多模态融合Transformer的视听广义零次学习方法 被引量:1
2
作者 杨静 李小勇 +3 位作者 阮小利 李少波 唐向红 徐计 《电子与信息学报》 北大核心 2025年第7期2375-2384,共10页
视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提... 视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提出了基于Transformer的视听广义零次学习方法。具体来说,使用注意力机制来学习数据的内部信息,增强不同模态的信息交互,以捕捉视听数据之间的语义一致性;为了度量不同概率分布之间的差异和类别之间的一致性,引入了Kullback-Leibler(KL)散度和余弦相似度损失。为了评估所提方法,在VGGSound-GZSL^(cls),UCF-GZSL^(cls)和ActivityNet-GZSL^(cls)3个基准数据集上进行测试。大量的实验结果表明,所提方法在3个数据集上都取得了最先进的性能。 展开更多
关键词 视听零次学习 视频分类 注意力机制 KL散度
在线阅读 下载PDF
解说音对旅游短视频传播认同度的影响研究
3
作者 胡明明 胡琼月 杨丽梅 《旅游学刊》 北大核心 2025年第6期68-79,共12页
旅游短视频对旅游营销推广和形象打造至关重要,其中,解说音作为信息传递的核心部分,直接影响用户的观看体验。文章基于精细加工可能性模型,探究解说音对旅游短视频传播认同度的影响,实证研究发现:1)解说音对旅游短视频传播认同度具有显... 旅游短视频对旅游营销推广和形象打造至关重要,其中,解说音作为信息传递的核心部分,直接影响用户的观看体验。文章基于精细加工可能性模型,探究解说音对旅游短视频传播认同度的影响,实证研究发现:1)解说音对旅游短视频传播认同度具有显著的正向影响;2)视频时长、发布者官方身份认证和发布者作品均赞数在解说音与旅游短视频传播认同度的关系中起调节作用;3)采用真人语调、以个人感悟为解说音类型的旅游短视频传播认同度显著更高,相比之下,解说口音的地域差异及解说者的性别对旅游短视频传播认同度的影响不显著。研究成果为旅游企业及旅游目的地在利用短视频进行品牌宣传与市场营销时提供理论指导与实践启示。 展开更多
关键词 旅游短视频 解说音 精细加工可能性模型 传播认同度 旅游营销
在线阅读 下载PDF
利用监控录像估算宏观烈度和强地面运动参数——以2025年西藏定日M6.8地震为例
4
作者 郑怡 杨小林 马海超 《震灾防御技术》 北大核心 2025年第1期24-31,共8页
2025年1月7日西藏定日县发生了M6.8破坏性地震,震区中的一些监控录像清晰地拍摄到了震害及地震动过程。为了挖掘这些视频所记录的宏观烈度和强地面运动参数等信息,本研究尝试采用数字视频和音频分析等方法,对其中7个监控录像进行了诊断... 2025年1月7日西藏定日县发生了M6.8破坏性地震,震区中的一些监控录像清晰地拍摄到了震害及地震动过程。为了挖掘这些视频所记录的宏观烈度和强地面运动参数等信息,本研究尝试采用数字视频和音频分析等方法,对其中7个监控录像进行了诊断。结果表明:(1)6个超市所在地的宏观烈度值约为Ⅴ~Ⅶ度;(2)某民用住宅处的强地面运动持续时间约为20~25 s,并在第7 s时达到峰值;(3)利用建筑金属构件和器皿的响动声,可以间接表征当地强地面运动的主过程。该研究不仅能补充定日地震的宏观烈度和强震动记录,而且能为数智时代下的宏观烈度调查和强震动视觉测量等提供参考。 展开更多
关键词 定日M6.8地震 监控录像 音频记录 宏观烈度 强地面运动参数
在线阅读 下载PDF
基于EMO-YOLOv5s的双关联套袋葡萄串实时检测与计数
5
作者 吕佳 张翠萍 《农业工程学报》 北大核心 2025年第12期161-171,共11页
实现套袋葡萄串的实时准确计数是保障后续果园产量估计准确性的关键前提。为解决现有果实计数方法实时性不足,且套袋葡萄串分布密集、遮挡现象以及相机移动不稳定等因素导致的目标追踪丢失问题,该研究提出一种基于EMO-YOLOv5s的双关联... 实现套袋葡萄串的实时准确计数是保障后续果园产量估计准确性的关键前提。为解决现有果实计数方法实时性不足,且套袋葡萄串分布密集、遮挡现象以及相机移动不稳定等因素导致的目标追踪丢失问题,该研究提出一种基于EMO-YOLOv5s的双关联套袋葡萄串实时检测与计数方法。首先在检测阶段,引入高效模型EMO替代YOLOv5s的原始骨干网络,以降低模型的参数量和计算量;其次在追踪阶段,在ByteTrack基础上提出一种基于BIoU和欧式距离的双关联方法,对套袋葡萄串的检测框和预测框进行二次关联,以缓解目标追踪丢失问题;最后在计数阶段,设计一种矩形区域计数方法,扩大套袋葡萄串的可计数范围,提升其计数准确性。试验结果表明,在检测性能方面,参数量和浮点运算量较YOLOv5s分别下降38.6%和39.0%,平均精度和检测速度分别为96.5%和77帧/s;在追踪性能方面,高阶追踪准确率、多目标追踪准确率和ID调和平均数较基线分别提高了3.6、4.1和6.0个百分点;在计数性能方面,平均计数精度为93.1%。该研究结果可为后续果园的产量预测提供可靠的依据。 展开更多
关键词 图像处理 实时检测 目标追踪 视频计数 YOLOv5s 套袋葡萄串
在线阅读 下载PDF
基于深度学习的人脸动画驱动方法综述 被引量:1
6
作者 刘龙 李浩生 +3 位作者 张梦璇 杜莹 常雅淇 张文博 《西安电子科技大学学报》 北大核心 2025年第2期57-84,共28页
人脸动画技术旨在通过输入源数据(如音频或视频)动态驱动静态人脸图像,以产生逼真的动画效果。深度学习技术的发展极大地推动了人脸动画技术的进步,深度学习模型能够学习并捕捉面部特征与运动规律,通过自动化驱动过程实现具有真实性与... 人脸动画技术旨在通过输入源数据(如音频或视频)动态驱动静态人脸图像,以产生逼真的动画效果。深度学习技术的发展极大地推动了人脸动画技术的进步,深度学习模型能够学习并捕捉面部特征与运动规律,通过自动化驱动过程实现具有真实性与个性化表达的人脸动画。目前,基于深度学习的人脸动画领域已有大量研究成果,但现有的综述多聚焦于特定技术或单一模态的驱动源,文中系统地综述了基于深度学习的人脸动画驱动技术,分别按照音视频驱动面部动画的流程总结研究现状。首先,介绍了从输入源数据提取面部特征的一般步骤;其次,深入分析了特征提取与动画合成的关键技术,并对比不同深度学习网络架构在各步骤的优劣;最后,总结不同架构下的动画生成方法并比较异同。此外,还列举了人脸动画方法常用的数据集及评价指标,总结了领域内现存挑战,进一步阐述了未来工作的发展趋势并做出一些展望,旨在为研究人员提供深度学习在人脸动画领域应用的更全面视角。 展开更多
关键词 人脸动画 深度学习 音视频驱动 虚拟人 研究综述
在线阅读 下载PDF
基于USB Video Camera的自动对焦系统 被引量:15
7
作者 王立强 林斌 +1 位作者 徐向东 陆祖康 《光电工程》 CAS CSCD 北大核心 2001年第5期32-34,共3页
介绍一种应用于USB video camera中的自动对焦系统。由USB video camera获取的视频图像经计算机进行FFT运算或微分运算,得到其频谱幅值数据或微分幅值数据,计算机根据所得数据判断USB video camera中的镜头是否处于离焦位置并控制电机... 介绍一种应用于USB video camera中的自动对焦系统。由USB video camera获取的视频图像经计算机进行FFT运算或微分运算,得到其频谱幅值数据或微分幅值数据,计算机根据所得数据判断USB video camera中的镜头是否处于离焦位置并控制电机将镜头移到对焦位置。文章还进一步讨论了提高自动对焦准确度的措施。实验结果表明该自动对焦系统能很好地实现USB video camera的自动对焦,该系统将使具有USB接口的video camera使用更简单方便。 展开更多
关键词 计算机外设 自动对焦 图像处理 视频摄像机 USB接口
在线阅读 下载PDF
基于VideoCharger视频点播系统的设计与实现 被引量:2
8
作者 朱友芹 陈圣琳 王欣 《计算机应用》 CSCD 北大核心 2001年第1期16-19,共4页
探讨了VideoCharger的逻辑组成、交互与配置方式 ,及详细的资源需求分析 ,给出了据此建立VOD系统的系列解决方案。
关键词 视频计算机系统 逻辑结构 视频点播 数据泵 图像处理
在线阅读 下载PDF
基于保护动机理论的中老年男性艾滋病健康教育短视频内容构建研究
9
作者 李双如 梁姝 +9 位作者 何欢 李苑 何佳 彭瑾 叶志华 袁将 杨碧辉 张瑞曦 王俊舟 杨义 《中国健康教育》 北大核心 2025年第9期812-816,共5页
目的 构建基于保护动机理论的中老年男性艾滋病健康教育短视频内容,为后续艾滋病健康教育提供科学依据。方法 通过文献查阅和专题小组讨论构建专家咨询问卷,选取17名相关领域专家通过两轮专家函询(德尔菲法)确定问卷内容,并通过层次分... 目的 构建基于保护动机理论的中老年男性艾滋病健康教育短视频内容,为后续艾滋病健康教育提供科学依据。方法 通过文献查阅和专题小组讨论构建专家咨询问卷,选取17名相关领域专家通过两轮专家函询(德尔菲法)确定问卷内容,并通过层次分析法确定权重。结果 两轮咨询问卷回收率分别为100%和94.12%,专家判断依据系数两轮均为0.94,熟悉程度系数分别是0.87和0.86,权威系数分别是0.91和0.90;可行性肯德尔协调系数分别为0.13和0.31,重要性为0.21和0.30,P<0.01。最终构建了3个领域9个维度41个条目的中老年男性艾滋病健康教育短视频内容体系,领域为威胁评估、应对评估和社会因素,权重分别是55.71%、32.03%和12.26%。结论 通过德尔菲法和层次分析法构建的中老年男性艾滋病健康教育短视频内容具有科学性,可作为后续短视频艾滋病健康教育内容。 展开更多
关键词 保护动机理论 德尔菲法 层次分析法 短视频 艾滋病
在线阅读 下载PDF
智能实时音视频网络的总体设计
10
作者 陈俊江 申光 《中兴通讯技术》 北大核心 2025年第1期63-70,共8页
互动性更高、沉浸感更强的实时音视频业务交互需求,驱动着音视频承载网络升级变革。针对传统音视频网络服务质量(QoS)效果不佳、网络流量不均衡、吞吐量低等一系列挑战,创新性地提出智能实时音视频网络(SRTN)理念。基于云网融合、云边... 互动性更高、沉浸感更强的实时音视频业务交互需求,驱动着音视频承载网络升级变革。针对传统音视频网络服务质量(QoS)效果不佳、网络流量不均衡、吞吐量低等一系列挑战,创新性地提出智能实时音视频网络(SRTN)理念。基于云网融合、云边端协同等思想,设计了多业务融合调度系统,研发出一系列创新技术和方案,提供低时延、高质量、大并发、高可靠的智能化音视频交互服务。SRTN有望成为一种面向下一代音视频应用的全新基础设施,为用户提供更优质的音视频智能体验。 展开更多
关键词 实时音视频通信 云网融合 融合调度 统一媒体网络
在线阅读 下载PDF
全数字化多媒体技术的代表──DVI(Digital Video Iteractive)系统 被引量:1
11
作者 陈一民 《上海大学学报(自然科学版)》 CAS CSCD 1995年第5期557-563,共7页
本文介绍了数字视频交互(DVI)技术的发展概况.详细论述了DVI的硬件结构和组成原理,并论述了DVI系统软件平台的构成以及它的核心软件AVK的组成和原理.
关键词 多媒体 数字视频交互 全数字化多媒体
在线阅读 下载PDF
基于深度强化学习的边缘辅助视频分析任务卸载
12
作者 沈奕菲 阮黎翔 +2 位作者 李心宇 程方文 张胜 《计算机应用与软件》 北大核心 2025年第9期350-358,375,共10页
随着深度学习的发展,人工智能相关的服务和应用大规模出现,包括推荐系统、视频分析等,它们对高算力、高带宽、低时延都提出了更高的要求,边缘计算目前被认为是最合适的计算方式。该文研究了多用户边缘辅助视频分析任务卸载(Multi-user E... 随着深度学习的发展,人工智能相关的服务和应用大规模出现,包括推荐系统、视频分析等,它们对高算力、高带宽、低时延都提出了更高的要求,边缘计算目前被认为是最合适的计算方式。该文研究了多用户边缘辅助视频分析任务卸载(Multi-user Edge-assisted Video Analytics task Offloading,MEVAO)问题,其中不同视频分析任务的用户将独立选择满足自身需求的准确度决策,并将视频数据卸载到边缘服务器上。针对此问题,提出一种基于深度强化学习的算法。根据视频分析特点设计效用函数,将MEVAO建模为博弈论问题并求解纳什均衡;然后应用深度强化学习方法提高了在不同场景下做出准确度决策的灵活性。实验结果表明,所提算法相较现有算法具有更好的性能表现。 展开更多
关键词 边缘计算 视频分析 任务卸载 博弈论 马尔可夫决策 深度强化学习
在线阅读 下载PDF
面向铁路沿线视频图像的遗传算法去雾优化研究
13
作者 刘阳学 刘文斌 +3 位作者 周鑫燚 于洪晟 张岩 李曼 《中国铁路》 北大核心 2025年第11期125-131,共7页
为解决因雾气影响视频图像质量导致铁路沿线视频监控预警系统不能正常发挥作用的问题,对传统先验模型方式的去雾算法进行改进,借助遗传算法群体搜索特点,提出1种基于遗传算法的视频图像去雾方法,以满足铁路沿线复杂环境下的视频图像去... 为解决因雾气影响视频图像质量导致铁路沿线视频监控预警系统不能正常发挥作用的问题,对传统先验模型方式的去雾算法进行改进,借助遗传算法群体搜索特点,提出1种基于遗传算法的视频图像去雾方法,以满足铁路沿线复杂环境下的视频图像去雾需求。结果表明:同传统先验模型的去雾方法相比,该方法对于铁路沿线视频图像非天空区域去雾效果具有较明显提升,满足雾天时铁路沿线监控预警的正常使用需求;此外,针对单幅图像的非天空区域去雾效果也具有较明显提升,可应用于铁路沿线视频监控。 展开更多
关键词 铁路沿线 视频去雾 图像处理 遗传算法 监控预警 非空域图像
在线阅读 下载PDF
Video CD播放系统设计
14
作者 林福宗 赵立人 《小型微型计算机系统》 CSCD 北大核心 1995年第3期29-34,共6页
目前国内外正在出现开发VideoCD系列产品的热潮,就象几年前从磁带录音机转向激光唱机那样,呈现一种从录象机(VCR)转向数字视盘(VideoCD)播放机的趋势。本文的前半部分介绍设计VideoCD播放系统要涉及到的... 目前国内外正在出现开发VideoCD系列产品的热潮,就象几年前从磁带录音机转向激光唱机那样,呈现一种从录象机(VCR)转向数字视盘(VideoCD)播放机的趋势。本文的前半部分介绍设计VideoCD播放系统要涉及到的重要标准,着重解释了WhiteBook和MPEG压缩算法;后半部分阐述播放系统的设计方案和策略,详细说明国内潜在市场很大的VideoCD播放机设计方案。 展开更多
关键词 数字视盘 播放系统 V-CD播放机
在线阅读 下载PDF
音频驱动的说话人面部视频生成与鉴别综述
15
作者 乐铮 胡永婷 徐勇 《计算机研究与发展》 北大核心 2025年第10期2523-2544,共22页
随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目.该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音... 随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目.该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音频口型同步的目标角色讲话视频.目前,相应的技术已经被广泛应用于虚拟主播、游戏动漫、影视剧制作等内容创作领域,并展现出广阔的发展前景.然而,这些技术的潜在负面影响也日益显现,若被不当利用或滥用,极有可能触发严重的政治和经济后果.背景下,针对面部伪造视频的鉴别研究应运而生,主要通过分析单视频帧的真实性或视频帧序列的时空一致性来评估视频的真实性.首先,依据时间脉络及基础模型的发展轨迹,系统性地剖析了音频驱动面部视频生成任务的经典算法与最新研究成果.其次,详尽列举了该任务领域内常用的数据集及评估标准,并从多个维度出发,对这些数据集与标准进行了全面深入的对比分析.紧接着,针对伪造面部视频鉴别任务,对鉴别技术所针对的对象(即单帧或多帧)进行了细致的分类与归纳,同时,也对其常用的数据集及评估标准进行了系统的总结与梳理.最后,展望了该研究领域面临的挑战与未来的发展方向,旨在为后续的相关研究提供有价值的参考与坚实的支撑. 展开更多
关键词 深度学习 深度伪造 音频驱动 说话人面部视频生成 伪造脸部视频鉴别
在线阅读 下载PDF
基于显著特征的Video水印方案
16
作者 杨世勇 葛建华 +1 位作者 刘培 蔡泽鉴 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2004年第6期882-885,共4页
为了使水印的分布集中在Video序列中图像显著的边缘特征中,提出了基于帧图像内容的模糊熵测度(FEM)算法,对序列图像特征系数的修改是局部自适应的,水印嵌入的强度随着图像局部变化而变化.在没有原始Video数据的情况下,利用Kalman滤波预... 为了使水印的分布集中在Video序列中图像显著的边缘特征中,提出了基于帧图像内容的模糊熵测度(FEM)算法,对序列图像特征系数的修改是局部自适应的,水印嵌入的强度随着图像局部变化而变化.在没有原始Video数据的情况下,利用Kalman滤波预测对水印信息进行检测和估计,能够使嵌入的商标在检测端得到恢复以表明数字产品的版权.实验结果表明,所提出的水印方案,对于Video序列中水印的嵌入及提取具有很好的效果而且可作为可靠的版权保护工具而应用. 展开更多
关键词 video水印 版权保护 模糊熵 混沌映射
在线阅读 下载PDF
基于区域显著性与空间特征提取的说话人像合成方法
17
作者 王邢波 张浩 +2 位作者 高浩 翟明亮 谢九成 《计算机科学》 北大核心 2025年第3期58-67,共10页
音频驱动的说话人像合成技术致力于将任意的输入音频序列转换为逼真的说话人像视频。近期,基于神经辐射场(NeRF)的多个说话人像合成工作取得了优秀的视觉效果。但是,此类工作仍普遍存在着语音-嘴唇同步欠佳、躯干抖动和合成视频清晰度... 音频驱动的说话人像合成技术致力于将任意的输入音频序列转换为逼真的说话人像视频。近期,基于神经辐射场(NeRF)的多个说话人像合成工作取得了优秀的视觉效果。但是,此类工作仍普遍存在着语音-嘴唇同步欠佳、躯干抖动和合成视频清晰度较低等不足。为了解决上述问题,提出了一种基于区域显著特征和空间体积特征的高保真说话人像合成方法。具体而言,一方面,开发了一个区域显著性感知模块用于头部建模。它利用多模态输入信息动态调整头部空间点的体积特征,同时优化基于哈希表的特征存储,从而提高面部细节表征的精确度和渲染效率。另一方面,设计了一个空间特征提取模块用于躯干的独立建模。不同于现有方法普遍采用的直接基于躯干表面空间点坐标估计其颜色和密度的方式,该模块利用参考图像构建躯干场以提供对应的纹理和几何先验,从而实现更清晰的躯干渲染和自然的躯干运动。应用于多个人物主体的实验结果表明,在自我重建场景中,所提方法相较于当前最优的基线模型,在图像质量上(PSNR,LPIPS,FID,LMD)分别取得了10.15%,12.12%,0.77%和1.09%的提升,在嘴唇同步精度上(AUE)提高了14.20%。此外,在交叉驱动(使用非训练集音频)的场景下,该算法在嘴唇同步精度(AUE)上提升了4.74%。 展开更多
关键词 说话人像合成 三维重建 音视频同步 神经辐射场 注意力机制
在线阅读 下载PDF
低混响条件下双耳Ambisonics重放空间感知质量的客观评价方法
18
作者 易婧如 周运佳 林志斌 《南京大学学报(自然科学版)》 北大核心 2025年第5期781-793,共13页
提出一种基于听觉滤波器模型与声学特征融合的空间感知质量客观评价方法,适用于低混响条件下的双耳Ambisonics重放.首先,使用听觉滤波器模型处理双耳输入信号,提取空间感知相关客观参量,并结合已有的空间感知和音质相关的参量来构建声... 提出一种基于听觉滤波器模型与声学特征融合的空间感知质量客观评价方法,适用于低混响条件下的双耳Ambisonics重放.首先,使用听觉滤波器模型处理双耳输入信号,提取空间感知相关客观参量,并结合已有的空间感知和音质相关的参量来构建声学特征集.然后,采用高斯回归过程(Gaussian Process Regression,GPR)模型建立特征集与主观评分的映射关系,以构建客观评价模型.为了验证该方法的有效性,开展主观评价实验,采用无混响/低混响仿真声学场景中的不同双耳Ambisonics重放算法生成的语音信号作为测试激励信号,获得主观评分数据,使用交叉验证的方式训练客观模型并评估模型性能.实验结果显示,与现有的评价模型相比,提出的模型在预测精确度方面取得了显著提升.此外,使用公开的Ambisonics格式(Ambix)音频及其主观评分数据进行外部验证,进一步证明了提出的模型的泛化能力和稳定性. 展开更多
关键词 空间音频 音质评价 双耳Ambisonics重放 高斯回归过程
在线阅读 下载PDF
视频处理技术在船舶导航系统设计中的应用
19
作者 李播阳 胡颖 《舰船科学技术》 北大核心 2025年第20期195-199,共5页
为满足船舶在复杂海洋环境下导航需求,在船舶导航系统设计中应用视频处理技术。采集航行视频流,并进行预处理后,运用帧间差分法构建自适应背景模型,划分海上目标前景、背景;并采用主成分分析法从前、背景划分结果中实时检测海上运动目标... 为满足船舶在复杂海洋环境下导航需求,在船舶导航系统设计中应用视频处理技术。采集航行视频流,并进行预处理后,运用帧间差分法构建自适应背景模型,划分海上目标前景、背景;并采用主成分分析法从前、背景划分结果中实时检测海上运动目标,精准获取目标位置、角度及运动趋势等关键信息,采用人工势场算法依据目标定位结果构建吸引与排斥势场,通过合力计算动态生成导航路径,成功规避多种类型障碍物,完成船舶路径导航。实验结果显示,视频处理技术划分的前景、背景图像边界清晰,且前景目标轮廓完整,背景图像未出现明显静态偏移或动态模糊,不存在误判情况,可精准获取目标位置、角度及运动趋势信息,有效导航出规避暗礁以及移动船舶的平滑路径。 展开更多
关键词 船舶导航 视频处理 目标检测 路径规划 人工势场法
在线阅读 下载PDF
面向视频编码的前处理技术研究
20
作者 吕梦帆 商习武 +1 位作者 李国平 王国中 《计算机工程》 北大核心 2025年第11期294-303,共10页
视频数据量的迅猛增长给有限带宽带来了严峻挑战,为此需提升视频编码效率。视频编码前处理技术能够在不改变编码器核心算法和参数设置的基础上,降低视频的数据量,以达到提升视频编码效率的目的,具备良好的兼容性。提出一种退化补偿多维... 视频数据量的迅猛增长给有限带宽带来了严峻挑战,为此需提升视频编码效率。视频编码前处理技术能够在不改变编码器核心算法和参数设置的基础上,降低视频的数据量,以达到提升视频编码效率的目的,具备良好的兼容性。提出一种退化补偿多维重建(DCMR)前处理方法,旨在多维度提取视频图像中与后续编码过程密切相关的特征,并将这些特征重建为视频图像。首先,设计退化补偿模型,在去除编码噪声的同时恢复传输过程中引起的图像退化;其次,构建轻量级的多维特征重建网络,结合残差学习和特征蒸馏原理,从空间和通道维度提取编码相关特征,并对提取到的特征进行重建;最后,为了恢复去噪过程中丢掉的高频细节,在DCMR中添加加载着加权引导滤波细节增强卷积模块的辅助分支。在损失函数方面,选择平均绝对值误差(MAE)损失和多尺度结构相似性(MS-SSIM)损失的组合,通过分配不同的权重实现多目标优化。在部署阶段,直接将DCMR集成到现有的任意标准视频编码器前,无须更改任何编码、流媒体以及解码设置。实验结果表明,DCMR方法可以在H.266/VVC下实现BD-rate(VMAF)平均提高21.6%、BD-rate(MOS)平均提高6.98%的性能增益。 展开更多
关键词 视频编码 前处理技术 高频信息 细节增强 H.266/VVC
在线阅读 下载PDF
上一页 1 2 54 下一页 到第
使用帮助 返回顶部