期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于端到端深度学习的数字语音源录音设备确认取证
1
作者 邹领 朱磊 +1 位作者 邓阳君 张红燕 《计算机科学》 北大核心 2025年第S1期958-964,共7页
音频编辑软件以及深度伪造(DeepFake)技术使得对数字音频和语音的篡改及伪造变得容易,因此,在将一段音频或语音录音作为有效的司法证据前,必须对其真实性和完整性进行鉴定。面向数字语音的录音设备源确认(SRDV)是数字音频设备源取证的... 音频编辑软件以及深度伪造(DeepFake)技术使得对数字音频和语音的篡改及伪造变得容易,因此,在将一段音频或语音录音作为有效的司法证据前,必须对其真实性和完整性进行鉴定。面向数字语音的录音设备源确认(SRDV)是数字音频设备源取证的关键问题之一,具体是指:给定一段数字语音录音和一个录音设备,判断该录音是否是由该设备所录制。近年来,深度学习技术在许多领域得到了广泛应用并取得了很好的效果,但目前与录音设备源识别相关的工作主要集中于录音设备源辨认(SRDI)中,尚未有基于深度学习的SRDV方法的报道。文中提出了一种新颖的基于端到端(E2E)深度学习的录音设备源取证方法,从语音录音中提取FBank特征来表征设备指纹并作为深度神经网络结构的输入,深度神经网络结构采用一个调整参数的VGG-M网络,并通过自注意力池化(SAP)层和全连接层来提取录音设备特征向量(RDE)。整个网络基于通用端到端(GE2E)损失函数来进行训练。采用等错误率(EER)作为性能评估准则,在划分好的开发集和测试集上进行录音设备源确认实验,实验结果表明所提方法显著提升了录音设备源确认的性能。 展开更多
关键词 数字语音取证 获取设备取证 录音设备源确认 录音设备特征向量 端到端深度学习
在线阅读 下载PDF
基于端到端深度学习的智能车自动转向研究 被引量:4
2
作者 邹斌 李超群 +1 位作者 侯献军 王科未 《计算机应用研究》 CSCD 北大核心 2018年第9期2873-2876,共4页
为解决由图像直接计算出控制量的端到端深度学习算法中感知器和控制器难以区分的问题,对其网络结构进行了改进。通过预训练一个自编码器,得到良好的道路特征编码后,将编码器作为感知器和和转角预测控制器一起进行端到端的训练。训练结... 为解决由图像直接计算出控制量的端到端深度学习算法中感知器和控制器难以区分的问题,对其网络结构进行了改进。通过预训练一个自编码器,得到良好的道路特征编码后,将编码器作为感知器和和转角预测控制器一起进行端到端的训练。训练结果表明,改进后的自动转向网络模型收敛得更快,预测的角度在测试集上能较好地跟随实际角度变化而变化。利用解码器和特征图反向传播法分别还原出道路图片,可视化了该自动转向模型重点关注的道路特征。 展开更多
关键词 端到端深度学习 自编码器 自动转向 反卷积
在线阅读 下载PDF
基于端到端深度学习的声源特征清晰化方法
3
作者 冯罗一 昝鸣 +2 位作者 徐中明 张志飞 李贞贞 《振动与冲击》 EI CSCD 北大核心 2023年第21期133-141,共9页
基于深度学习的无网格声源识别方法突破了网格划分的限制,具有精度高、预测速度快的优点。在利用传统波束形成地图(conventional beamforming map,CB Map)提取声源位置特征时,随着传声器数目的减少,CB Map的成像性能会下降,进而影响深... 基于深度学习的无网格声源识别方法突破了网格划分的限制,具有精度高、预测速度快的优点。在利用传统波束形成地图(conventional beamforming map,CB Map)提取声源位置特征时,随着传声器数目的减少,CB Map的成像性能会下降,进而影响深度学习模型预测声源位置的精度。为了提高深度学习无网格方法(deep learning grid-free method,DL-GFM)的通用性,使其在较少传声器阵列的情况下有良好的性能,提出一种基于端到端深度学习模型U-Net的阵列转换方法(array converted method,ACM),对CB Map进行清晰化。首先使用18通道阵列CB Map作为输入、64通道阵列CB Map作为目标训练U-Net模型,然后使用训练好的残差神经网络(residual network,ResNet)作为DL-GFM方法的预测模型进行无网格声源坐标识别。仿真结果表明ACM方法具有良好的旁瓣消除和主瓣宽度减小能力,并且在1~8个声源范围内对非训练声源数目的情况同样有效。对于3声源的情况,ACM方法在全频段上提升了DL-GFM方法的精度。最后通过1个、2个、3个声源的试验验证了提出方法的有效性和可行性。 展开更多
关键词 声源识别 波束形成 U-Net模型 端到端深度学习 相控麦克风阵列
在线阅读 下载PDF
基于EfficientNetV2-RetNet的端到端中文管制语音识别 被引量:1
4
作者 梁海军 常瀚文 +2 位作者 何一民 赵志伟 孔建国 《电讯技术》 北大核心 2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获... 自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。 展开更多
关键词 空中交通管制 自动语音识别 端到端深度学习 迁移学习
在线阅读 下载PDF
基于Transformer的汉字到盲文端到端自动转换 被引量:1
5
作者 蒋琪 苏伟 +3 位作者 谢莹 周弘安平 张久文 蔡川 《计算机科学》 CSCD 北大核心 2021年第S02期136-141,共6页
汉字到盲文自动转换是改善我国1700万视障人群生活学习和贯彻落实国家信息无障碍建设的重要问题。现有汉盲转换方法均采用多步转换方法,先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本。该文提出... 汉字到盲文自动转换是改善我国1700万视障人群生活学习和贯彻落实国家信息无障碍建设的重要问题。现有汉盲转换方法均采用多步转换方法,先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本。该文提出一种基于编码器-解码器模型Transformer的端到端汉盲转换方法,利用汉字-盲文对照语料库训练Transformer模型。基于《人民日报》六个月约1200万字中文语料,该文构建了国家通用盲文、现行盲文、双拼盲文三种对照汉盲语料库。实验结果表明,该文提出的方法可将汉字一步转换为盲文,并在国家通用盲文、现行盲文、双拼盲文分别有80.25%,79.08%和79.29%的BLEU值。相比现有汉盲转换方法,该方法所需语料库的建设难度较小,且工程复杂度较低。 展开更多
关键词 汉盲转换 端到端深度学习 编码器-解码器模型 TRANSFORMER
在线阅读 下载PDF
复杂环境中的线结构光中心提取方法 被引量:11
6
作者 郭雁蓉 杨剑 +2 位作者 宋文爱 郭斯檀 张强 《计算机工程与设计》 北大核心 2019年第4期1133-1138,1144,共7页
为避免复杂环境和物体不均等因素影响,造成提取的线结构光中心不完整、无效或者断裂问题,提出一种多尺度卷积并行的方式,利用端到端深度学习方法提取线结构光中心。用第一个网络进行目标检测,用于提取感兴趣的图像特征区域,检测到线结... 为避免复杂环境和物体不均等因素影响,造成提取的线结构光中心不完整、无效或者断裂问题,提出一种多尺度卷积并行的方式,利用端到端深度学习方法提取线结构光中心。用第一个网络进行目标检测,用于提取感兴趣的图像特征区域,检测到线结构光。因为第一个网络中加入解码层和编码层,即使在复杂的背景环境中,也可以提取线结构光的面积。使用第二个网络和稀疏算法得到单像素的线结构光中心。通过不断优化算法定义的损失函数值,得到平滑、完整的中心线。实验结果表明,该方法速度快,有效排除了环境干扰,在复杂环境中提取的线结构光中心线完整。 展开更多
关键词 线结构光 中心提取 复杂环境 多尺度卷积 端到端深度学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部