期刊文献+
共找到240篇文章
< 1 2 12 >
每页显示 20 50 100
Windows环境下用软件CODEC实现数字视频实时通信 被引量:1
1
作者 陈宁 谈大龙 王庆鹏 《计算机工程》 CAS CSCD 北大核心 2001年第9期144-146,共3页
讨论了Windows环境下利用软件编解码器实现视频压缩的方法和技巧,结合视频捕获和视频传输,以网络环境下机器人遥操作的实际应用为背景,给出了数字视频实时通信的编程实例。
关键词 软件编解码 数字视频实时通信 WINDOWS codec 视频捕获 视频传输
在线阅读 下载PDF
Windows环境下基于软件CODEC的实时视频压缩解压缩技术 被引量:2
2
作者 刘军 叶晓东 周耀华 《计算机工程》 EI CAS CSCD 北大核心 2000年第8期151-153,共3页
讨论了Windows环境下利用软件压缩解压缩器进行实时视频处理的VCM接口技术,并给出了相应的编程实例,同时结合一个局域网视频实时传输系统对软件CODEC技术在多媒体系统中的应用作了一定的探讨.
关键词 软件压缩解压缩器 多媒体系统 codec WINDOWS
在线阅读 下载PDF
SpaceWire CODEC的容错设计和实现 被引量:2
3
作者 程照强 刘淑芬 《空间控制技术与应用》 2012年第3期52-57,共6页
对SpaceWire CODEC进行容错设计是提高其可靠性的重要途径.分析SpaceWire协议的容错性能,介绍SpaceWire CODEC的容错设计方法,通过故障汇入和仿真验证了容错设计的有效性.
关键词 SPACEWIRE codec 容错设计 Hsiao编码 状态机 空时三模冗余
在线阅读 下载PDF
欧胜推出全新高性能、低功耗CODEC系列
4
《半导体技术》 CAS CSCD 北大核心 2009年第11期1156-1156,共1页
欧胜微电子有限公司宣布推出一个全新的、创新型的低功耗编码解码器(CODEC)系列,旨在增强音频性能和延长各种便携式电池寿命。
关键词 音频性能 codec系列 低功耗 编码解码器 电池寿命 微电子 创新型 便携式
在线阅读 下载PDF
欧胜提供业内超低功耗CODEC
5
《半导体技术》 CAS CSCD 北大核心 2009年第7期721-721,共1页
2009年6月22日,欧胜微电子宣布推出型号为WM8961的超低功耗立体声编码解码器(CODEC),它是其新一代超低功耗器件系列的第二款产品,为极大延长便携设备音频回放时间而设计。WM8961以欧胜开创性的WM8903编码解码器为基础,在芯片中集... 2009年6月22日,欧胜微电子宣布推出型号为WM8961的超低功耗立体声编码解码器(CODEC),它是其新一代超低功耗器件系列的第二款产品,为极大延长便携设备音频回放时间而设计。WM8961以欧胜开创性的WM8903编码解码器为基础,在芯片中集成了同样的创新技术以及一个附加的内置高功率D类立体声扬声器驱动器。这项提升扩展了欧胜业界领先的超低功耗音频技术在要求高性能扬声器驱动器功能中的应用,其市场包括移动互联网设备(MID)、手持游戏机和便携媒体播放器(PMP)。 展开更多
关键词 超低功耗 codec 立体声扬声器 编码解码器 音频技术 媒体播放器 便携设备 创新技术
在线阅读 下载PDF
基于色彩感知的通用高保真光谱图像压缩
6
作者 梁玮 蔡磊 +2 位作者 郝雯 金海燕 侯煜 《光谱学与光谱分析》 北大核心 2025年第7期2008-2016,共9页
针对光谱图像在特定再现环境下的色彩高保真复制等领域的应用,为增加通用性,提升压缩效率,进一步存储传输,本文提出了特定光照中基于视觉感知特性的通用低复杂度色彩高保真光谱图像压缩方法。首先研究特定再现环境中光谱图像的色彩再现... 针对光谱图像在特定再现环境下的色彩高保真复制等领域的应用,为增加通用性,提升压缩效率,进一步存储传输,本文提出了特定光照中基于视觉感知特性的通用低复杂度色彩高保真光谱图像压缩方法。首先研究特定再现环境中光谱图像的色彩再现原理,设计重建光谱图像色彩误差衡量方式,进而提出特定光照中光谱图像色彩保真压缩的失真指导准则。基于色彩失真指导准则,得出压缩原理,进而设计光谱预处理、空谱去冗余方法、编码方法和优化策略,最终提出可供高保真再现的光谱图像压缩方法。在失真指导准则方面,首先构建了光谱图像的色彩分解环境,提出了对光谱图像在特定照明下(单一或者混合照明)进行色彩感知信息提取的矩阵算子;然后,利用色彩感知信息提取算子,采用色彩感知误差衡量光谱图像于色彩测度上的偏差;最后,提出用于指导压缩环节的光谱图像色彩感知失真准则。基于该准则提出针对性压缩原理,设计了本文压缩算法流程。首先,对光谱数据色彩感知加权预处理,采用色彩感知信息提取算子,获得特定再现条件下保持光谱特性的光谱色彩感知数据;然后,基于色彩感知压缩原理,对色彩感知光谱数据进行APWS-RA编码,命名为W_(S)F-APWS-RA。光谱图像解码分为两个阶段。首先,对压缩码流进行编码的逆处理,形成重建的光谱色彩感知数据矩阵;然后,采用设计的可逆色彩感知提取算子,通过感知信息提取矩阵算子的逆矩阵与重建光谱色彩感知数据矩阵相乘获得重构光谱图像。实验表明,在相同比特率下,较低复杂度压缩APWS,APWS-RA及色彩再现类WF-APWS-RA,W_(S)F-APWS-RA编码不但能够更加有效地保留特定再现条件下的光谱色彩信息,具有最优秀的变光照色彩再现稳定性,同时可有效提升光谱重建精度。因此,新方法亦可泛化用于遥感等领域,具有重要实用价值。 展开更多
关键词 可见光谱 光谱图像压缩 色彩高保真再现 色彩感知信息提取 小波编解码
在线阅读 下载PDF
浮选泡沫低照度图像颜色深度编解码校正及多尺度增强
7
作者 孙磊 唐倩 +3 位作者 廖一鹏 廖玉华 董则希 何建军 《光学精密工程》 北大核心 2025年第10期1609-1626,共18页
浮选现场环境恶劣、光照条件复杂多变,针对现场采集的浮选图像易出现曝光不足、颜色失真等问题,提出了一种低照度图像颜色深度编解码校正及多尺度增强方法。首先,将低照度图像从RGB转换至HSV空间,针对明度(V)分量,采用非下采样剪切波变... 浮选现场环境恶劣、光照条件复杂多变,针对现场采集的浮选图像易出现曝光不足、颜色失真等问题,提出了一种低照度图像颜色深度编解码校正及多尺度增强方法。首先,将低照度图像从RGB转换至HSV空间,针对明度(V)分量,采用非下采样剪切波变换(NSST)进行多尺度分解;其次,提出基于全局空间模块的色彩编解码网络,通过挤压提取、色彩编码、色彩解码、颜色校正构建颜色深度编解码校正网络模型,对色度(H)、饱和度(S)分量进行颜色校正;然后,采用自适应模糊集增强V分量的低频子带图像,利用尺度相关系数有效滤除V分量中各高频子带的噪声成分,同时使用非线性增益函数对高频边缘系数进行显著增强处理;最后,对增强后的V分量各子带图像作NSST反变换重构,并将重构后的V分量与校正后的H分量、S分量融合转换回RGB空间。通过实验验证,与当前的主流方法相比,本文方法CIEDE平均降低14.8358,PSNR平均提高8.48 dB,结构相似度平均提高31.32%,连续边缘像素比保持在91%以上。本文方法显著改善了图像的亮度,提升了对比度、清晰度和信息熵,使图像颜色更接近真实色彩,保留了更多纹理细节,并在有效抑制噪声的同时,实现了边缘增强。 展开更多
关键词 浮选泡沫 低照度图像 颜色校正 颜色深度编解码网络 多尺度增强与去噪 非下采样剪切波变换 模糊集
在线阅读 下载PDF
VALL-E R:利用单调对齐策略的鲁棒且高效零样本语音合成 被引量:1
8
作者 韩冰 钱彦旻 《信号处理》 北大核心 2025年第9期1537-1546,共10页
借助离散神经音频编解码器的能力,大型语言模型(Large language model,LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech,TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错... 借助离散神经音频编解码器的能力,大型语言模型(Large language model,LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech,TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错误、遗漏和重复等鲁棒性问题。为了解决上述问题,我们提出了VALL-E R,一个鲁棒且高效的零样本TTS系统,并以VALL-E为基础进行构建。具体而言,我们引入了一种音素单调对齐策略,通过约束声学标记与其对应的音素严格匹配,增强了音素与声学序列之间的映射关系,从而确保更精确的对齐。此外,我们采用编解码器合并的方法,在浅层量化层对离散码进行降采样,以减少解码计算量,同时保持语音输出的高质量。受益于这些策略,VALL-E R在音素可控性方面取得了显著提升,并通过逼近真实语音的词错误率展现了卓越的鲁棒性。此外,该系统仅需较少的自回归推理步骤,推理时间降低超过60%,极大提升了推理效率。 展开更多
关键词 零样本语音合成 单调对齐 合并编码 鲁棒性 高效性
在线阅读 下载PDF
舰载显控图像信息共享方法设计与实现
9
作者 龙小军 童文滔 李立夏 《舰船科学技术》 北大核心 2025年第15期121-128,共8页
为解决传统舰载视频信号不能双向流动、占用网络带宽高、控制繁琐、可扩展性不强等弱点,提出一种基于IP图像信息共享方法。在源端,首先对不同的视频接口信号进行归一化处理,然后对其进行H.264/H.265编码,再对其进行RTSP流封装,最后将其... 为解决传统舰载视频信号不能双向流动、占用网络带宽高、控制繁琐、可扩展性不强等弱点,提出一种基于IP图像信息共享方法。在源端,首先对不同的视频接口信号进行归一化处理,然后对其进行H.264/H.265编码,再对其进行RTSP流封装,最后将其推送到共享网络;在终端,首先对RTSP视频流进行解封,然后对其进行H.264/H.265解码,最后对其进行叠加显示。结果表明,此方法提出的图像信息共享架构,具有信号双向流动、网络带宽可调节、控制简单以及很强的可扩展性等特点,同时该方法可简化视频系统的硬件配置,提升数据传输效率,缩短系统传输延时,提高指控系统作战效能。 展开更多
关键词 舰载视频 图像共享 视频编解码 超高清视频 低延时
在线阅读 下载PDF
基于梅尔谱与压缩激励加权量化的语音神经编解码方法
10
作者 周俊佐 易江燕 +2 位作者 陶建华 任勇 汪涛 《计算机研究与发展》 北大核心 2025年第11期2725-2736,共12页
目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法... 目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法旨在保持较高语音感知质量的同时降低计算代价,加快运行速度,从而减少时延.具体而言,采用梅尔谱特征作为输入,借助梅尔谱提取过程中时域压缩的性质,并结合低层卷积编码器以简化运算过程.此外,借鉴压缩激励网络思想,提取了编码器最后一层输出特征各维度的激励权重,将其作为量化器中计算码本距离时压缩特征各维度的权重系数,由此学习特征间的相关性并优化量化性能.在LibriTTS和VCTK数据集上的实验结果表明,该方法显著提升了编码器计算速度,且能在较低比特率时(≤3 Kbps)提升重建语音质量.以比特率1.5 Kbps时为例,编码计算实时率(real-time factor,RTF)最多可提升4.6倍.对于感知质量,以0.75 Kbps为例,短时客观可懂度(shorttime objective intelligibility,STOI)、虚拟语音质量客观评估(virtual speech quality objective listener,VISQOL)等客观指标相较基线平均可提升8.72%.此外,消融实验不仅表明压缩激励权重方法的优化效果与比特率呈反相关,而且发现Relu激活函数相较周期性质激活函数Snake而言,在语音感知质量相当的情况下,能大量加快运行速度. 展开更多
关键词 语音编解码 梅尔谱图 压缩激励网络 残差矢量量化 生成对抗网络
在线阅读 下载PDF
深度联合编解码器融合知识图谱的语义通信性能优化
11
作者 赖雪冰 李旋 +1 位作者 王辩铮 申滨 《南京邮电大学学报(自然科学版)》 北大核心 2025年第4期60-69,共10页
语义通信模型通常采用传统信源信道编解码方案,在低信噪比环境下,文本传输易受噪声影响而导致失真。因此,设计了一种深度联合语义信道编解码器融合知识图谱的语义模型KG-DeepSC,实现文本传输性能优化。该模型在发送端引入冗余三元组过... 语义通信模型通常采用传统信源信道编解码方案,在低信噪比环境下,文本传输易受噪声影响而导致失真。因此,设计了一种深度联合语义信道编解码器融合知识图谱的语义模型KG-DeepSC,实现文本传输性能优化。该模型在发送端引入冗余三元组过滤模块对知识图谱进行预处理,然后经过基于Transformer的联合编解码器,将三元组作为基本符号传输至接收端,并恢复为自然文本。所设计的编解码器通过学习推理三元组之间的关联,基于其所具有的自注意力机制捕捉并传输三元组语义特征,增强了对抗物理信道噪声的能力,并节约了传输开销。另外,引入基于Flan-T5模型的微调实现自然文本恢复任务,并结合数据增强方法进一步提升模型泛化能力。计算机仿真实验证明,在低信噪比条件下,与传统的Huffman-RS语义编码方法和联合编解码器独立架构DeepSC相比,所提出的KG-DeepSC语义相似度性能分别实现了至少30%和10%的提升,能够更为有效地传输语义知识。 展开更多
关键词 语义通信 知识图谱 文本传输 联合编解码
在线阅读 下载PDF
基于残差膨胀卷积与门控编解码网络的语音增强
12
作者 李珂 王雅静 +1 位作者 昝志辉 齐瑞洁 《电子测量与仪器学报》 北大核心 2025年第4期74-83,共10页
语音信号的时序依赖性特征和上下文信息在语音增强任务中至关重要,针对编解码网络对其捕获不充分导致增强效果差的问题,构建了一种非对称的残差膨胀卷积与门控编解码网络(RD-EGN),该网络包含编码器、中间层和解码器3部分。编码器设计了... 语音信号的时序依赖性特征和上下文信息在语音增强任务中至关重要,针对编解码网络对其捕获不充分导致增强效果差的问题,构建了一种非对称的残差膨胀卷积与门控编解码网络(RD-EGN),该网络包含编码器、中间层和解码器3部分。编码器设计了一种因果卷积层结构,以时序特征建模,捕获语音序列中不同层的特征,并保持语音信号的因果性;中间层设计了残差膨胀卷积网络(RDCN),融合膨胀卷积、残差连接和级联的扩张块使网络拥有更高的感受野,以跨层的方式传递信息并提取语音长时依赖性特征,在此基础上将RDCN与长短时记忆网络相结合,捕获更广泛的上下文信息;解码器引入门控机制,动态调整信息流的门控程度,获得更丰富的全局特征并重建增强语音。分别在TIMIT、UrbanSound8k、VoiceBank及NOISE92数据集上进行消融及性能对照,实验结果表明,RD-EGN相较于卷积循环网络(CRN)、自编码器卷积神经网络(AECNN)、膨胀-密集自动编码器(DDAEC)等具有较少的训练参数和较高的SSNR得分、主观评价指标(CSIG,CBAK和COVL)得分,并且在客观评价指标方面,语音质量客观评价指标(PESQ)提高了2.5%~7.1%,短时客观可懂度(STOI)提高了1%~5.3%,具有较为突出的增强性能与泛化能力。 展开更多
关键词 语音增强 深度学习 编解码网络 膨胀卷积 门控机制
在线阅读 下载PDF
融合Mobile Vit和倒置门控编解码的视网膜血管分割算法 被引量:1
13
作者 梁礼明 阳渊 +2 位作者 朱晨锟 何安军 吴健 《北京航空航天大学学报》 北大核心 2025年第3期712-723,共12页
针对视网膜血管分割时存在背景噪声干扰、边界纹理模糊和微细血管提取难等问题,提出一种融合Mobile Vit和倒置门控编解码的视网膜血管分割算法(FMVG-Net)。改进Mobile Vit模块,在编码部分实现双联合特征提取;利用多谱注意力模块,从频域... 针对视网膜血管分割时存在背景噪声干扰、边界纹理模糊和微细血管提取难等问题,提出一种融合Mobile Vit和倒置门控编解码的视网膜血管分割算法(FMVG-Net)。改进Mobile Vit模块,在编码部分实现双联合特征提取;利用多谱注意力模块,从频域维度减少图像特征信息缺失,精确分割血管前景像素;提出特征自适应融合模块,建立血管纹理上下文依赖关系,提高血管分割灵敏度;优化编解码结构,设计倒置门控编解码模块,进一步捕获空间信息与深层语义信息,提高视网膜血管图像分割精度。在公共数据集DRIVE、STARE和CHASE_DB1上对所提算法进行实验,特异性分别为0.9863、0.9897和0.9873,准确度分别为0.9709、0.9754和0.9760,敏感度分别为0.8109、0.8010和0.8079。仿真实验证明,所提网络对视网膜血管分割具有较好的分割效果,为眼科疾病的诊断提供了新窗口。 展开更多
关键词 视网膜血管 Mobile Vit模块 离散余弦变换 倒置门控编解码模块 特征自适应融合
在线阅读 下载PDF
基于改进ViT的网络流量分类方法
14
作者 李道全 高洁 +1 位作者 聂若琳 胡一帆 《计算机工程与设计》 北大核心 2025年第2期431-437,共7页
目前网络流量分类方法中存在模型结构复杂、特征提取不足等问题,提出一种基于稀疏注意力的改进ViT(SA-ViT)网络流量分类模型。去除数据集中无关字段并转化为灰度图,划分为块序列输入编码器提取特征;引入Longformer稀疏注意力对Self-atte... 目前网络流量分类方法中存在模型结构复杂、特征提取不足等问题,提出一种基于稀疏注意力的改进ViT(SA-ViT)网络流量分类模型。去除数据集中无关字段并转化为灰度图,划分为块序列输入编码器提取特征;引入Longformer稀疏注意力对Self-attention进行优化,使其具有更高的局部与全局特征表达能力;通过对比图像相似度实现流量分类。通过网络公开数据集进行检测,其结果表明,所提算法在分类准确率、精确率以及F1分数等方面有较大提升,验证了该模型的科学性与可行性。 展开更多
关键词 流量分类 Vision Transformer(ViT) 稀疏注意力 Longformer 编解码器 样本不均衡 灰度图
在线阅读 下载PDF
一种钢轨表面缺陷检测网络PS-Unet
15
作者 许建军 胡祥涛 +2 位作者 张勇乐 李子怡 湛红晖 《合肥工业大学学报(自然科学版)》 北大核心 2025年第9期1192-1200,1217,共10页
文章提出一种基于Unet网络的缺陷分割模型PS-Unet,该模型在Unet网络结构基础上,设计金字塔池化模块(pyramid pooling module,PPM)和尺度感知模块(scale-aware module,SAM),并将其嵌入深层特征提取层中,用于提升模型的性能;针对缺陷和背... 文章提出一种基于Unet网络的缺陷分割模型PS-Unet,该模型在Unet网络结构基础上,设计金字塔池化模块(pyramid pooling module,PPM)和尺度感知模块(scale-aware module,SAM),并将其嵌入深层特征提取层中,用于提升模型的性能;针对缺陷和背景像素比例失衡导致的模型精度降低问题,提出一种改进的损失函数,使训练过程聚焦在不易识别的缺陷上,加快模型收敛。实验证明,该文提出的PS-Unet网络显著改善了检测性能,相较Unet检测网络,平均交并比(mean intersection over union,mIOU)、平均像素精度(mean pixel accuracy,mPA)、精确率P在高速轨道缺陷数据集上分别提高2.06%、4.98%、3.18%,在普通/重型运输轨道缺陷数据集上分别提高4.79%、4.35%、6.28%。 展开更多
关键词 钢轨缺陷 编解码 金字塔池化 尺度感知
在线阅读 下载PDF
基于神经网络的低码率语音编码技术研究综述 被引量:2
16
作者 王晶 徐亮 +2 位作者 陈晓娇 谢湘 费泽松 《信号处理》 CSCD 北大核心 2024年第12期2261-2280,共20页
语音编码算法在无线或网络语音的传输过程中具有重要作用,在降低语音编码速率的同时确保编码语音质量不变甚至提升一直是设计者们追求的核心目标。然而,传统语音编解码器在较低速率下经过压缩后的语音音质、可懂度和有效带宽均有明显下... 语音编码算法在无线或网络语音的传输过程中具有重要作用,在降低语音编码速率的同时确保编码语音质量不变甚至提升一直是设计者们追求的核心目标。然而,传统语音编解码器在较低速率下经过压缩后的语音音质、可懂度和有效带宽均有明显下降,极大程度上影响了用户的听觉体验。随着人工智能技术的不断进步,深度神经网络模型在语音处理任务中的应用也日益广泛,其性能普遍远超传统方法。在语音编解码领域,近年来很多研究也开始关注如何将神经网络模块融入编解码器,以实现更高效的语音传输,旨在低码率下实现传统方案无法达到的性能,为无线或网络语音传输提供新的解决方案。本文对基于神经网络的低码率语音编解码算法进行全面的整理分析和分类汇总,详细介绍了使用传统方法与神经网络结合的混合式编解码器以及使用编码器-解码器联合训练的端到端编解码器的发展历程、原理、特点及评价指标,并总结了这些方法的优势与不足。最后,结合当前各类编解码器的发展状况,对低速率语音编解码器的未来进行展望。基于神经网络的低码率语音编码技术有望解决实际通话中传输带宽受限时通话质量不佳的问题,为实时语音通信的进一步发展提供有力支持,并为未来压缩编码的研究方向提供新的思路。 展开更多
关键词 语音编码 低码率 神经网络 混合式编码器 端到端编码器
在线阅读 下载PDF
结合残差与双注意力机制的U-Net语音增强方法 被引量:3
17
作者 许春冬 王磊 +2 位作者 胡菁兰 闵源 徐锦武 《计算机工程与设计》 北大核心 2024年第11期3383-3389,共7页
针对U-Net语音增强网络深层特征提取能力不足,以及编解码过程中特征信息丢失问题,提出一种结合残差与双注意力机制的DA-Res-Unet语音增强方法。将U-Net编解码部分设计为残差结构来深化网络,增强深层特征提取能力;在网络结构中构造双注... 针对U-Net语音增强网络深层特征提取能力不足,以及编解码过程中特征信息丢失问题,提出一种结合残差与双注意力机制的DA-Res-Unet语音增强方法。将U-Net编解码部分设计为残差结构来深化网络,增强深层特征提取能力;在网络结构中构造双注意力机制,减少时频特征提取中的细节信息丢失;在网络中融入空洞空间金字塔池化结构,在低参数量情况下融合不同尺度上下文背景信息,提高模型特征捕获能力。实验结果表明,DA-Res-Unet网络模型在可见噪声测试集上的PESQ、STOI和LSD这3种评测指标取得了不同程度的提升,在未知噪声测试集上具备一定优势。 展开更多
关键词 语音增强 深度学习 残差网络 特征提取 编解码结构 注意力机制 空洞空间池化金字塔
在线阅读 下载PDF
混合注意力与多特征交互的去雾算法 被引量:1
18
作者 杨燕 张全君 梁皓博 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第9期56-64,共9页
为解决目前深度学习去雾算法在处理非均匀雾天图像时无法有效利用多尺度特征,导致复原出的图像产生颜色失真、细节恢复不完整等问题,提出了混合注意力与多特征交互的图像去雾算法。首先,利用编码模块提取不同尺度的特征;其次,构造混合... 为解决目前深度学习去雾算法在处理非均匀雾天图像时无法有效利用多尺度特征,导致复原出的图像产生颜色失真、细节恢复不完整等问题,提出了混合注意力与多特征交互的图像去雾算法。首先,利用编码模块提取不同尺度的特征;其次,构造混合注意力模块,从全局角度对图像雾气进行感知,并利用通道注意力机制对不同雾浓度分配权重;然后,设计多特征交互模块,实现不同尺度特征间的信息交换,有效利用低分辨率特征中的语义信息,同时保留了高分辨率特征的空间细节与颜色信息,并利用门控融合模块聚合不同尺度的特征;最后,解码模块对融合后的特征进行重构,得到无雾图像。实验结果表明,运用本文提出的算法恢复的去雾图像不仅主观上颜色自然、细节清晰,而且在客观指标上也优于现有的主流算法。该研究结果可为深度学习去雾研究与应用提供新的方案。 展开更多
关键词 图像去雾 编解码器 混合注意力 多特征交互 门控融合
在线阅读 下载PDF
基于门控时空注意力的视频帧预测模型 被引量:4
19
作者 李卫军 张新勇 +2 位作者 高庾潇 顾建来 刘锦彤 《郑州大学学报(工学版)》 北大核心 2024年第1期70-77,121,共9页
针对循环式视频帧预测架构存在精度低、训练缓慢,以及结构复杂和误差累积等问题,提出了一种基于门控时空注意力的视频帧预测模型。首先,通过空间编码器提取视频帧序列的高级语义信息,同时保留背景特征;其次,建立门控时空注意力机制,采... 针对循环式视频帧预测架构存在精度低、训练缓慢,以及结构复杂和误差累积等问题,提出了一种基于门控时空注意力的视频帧预测模型。首先,通过空间编码器提取视频帧序列的高级语义信息,同时保留背景特征;其次,建立门控时空注意力机制,采用多尺度深度条形卷积和通道注意力来学习帧内及帧间的时空特征,并利用门控融合机制平衡时空注意力的特征学习能力;最后,由空间解码器将高级特征解码为预测的真实图像,并补充背景语义以完善细节。在Moving MNIST、TaxiBJ、WeatherBench、KITTI数据集上的实验结果显示,同多进多出模型SimVP相比,MSE分别降低了14.7%、6.7%、10.5%、18.5%,在消融扩展实验中,所提模型达到了较好的综合性能,具有预测精度高、计算量低和推理效率高等优势。 展开更多
关键词 视频帧预测 卷积神经网络 注意力机制 门控卷积 编解码网络
在线阅读 下载PDF
基于Opus算法的船舶音频传输系统设计 被引量:4
20
作者 吴科献 金华标 +1 位作者 王琪 徐士甲 《船海工程》 北大核心 2024年第4期18-23,共6页
针对传统航行数据记录仪音频数据采用本地存储,在发生重大水上事故时,存储介质寻找过程漫长且内部的音频数据回放困难等问题,设计音频系统中的Opus自适应编解码算法和网页实时通讯传输方案,实现音频数据的无线传输和岸基管理平台回放。... 针对传统航行数据记录仪音频数据采用本地存储,在发生重大水上事故时,存储介质寻找过程漫长且内部的音频数据回放困难等问题,设计音频系统中的Opus自适应编解码算法和网页实时通讯传输方案,实现音频数据的无线传输和岸基管理平台回放。经验证,设计的编解码算法与网络传输系统性能满足检验指南音频质量STI≥0.6的要求。 展开更多
关键词 航行数据记录仪 音频采集 编解码算法 网页实时通讯
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部