期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于端到端深度学习的声源特征清晰化方法
1
作者 冯罗一 昝鸣 +2 位作者 徐中明 张志飞 李贞贞 《振动与冲击》 EI CSCD 北大核心 2023年第21期133-141,共9页
基于深度学习的无网格声源识别方法突破了网格划分的限制,具有精度高、预测速度快的优点。在利用传统波束形成地图(conventional beamforming map,CB Map)提取声源位置特征时,随着传声器数目的减少,CB Map的成像性能会下降,进而影响深... 基于深度学习的无网格声源识别方法突破了网格划分的限制,具有精度高、预测速度快的优点。在利用传统波束形成地图(conventional beamforming map,CB Map)提取声源位置特征时,随着传声器数目的减少,CB Map的成像性能会下降,进而影响深度学习模型预测声源位置的精度。为了提高深度学习无网格方法(deep learning grid-free method,DL-GFM)的通用性,使其在较少传声器阵列的情况下有良好的性能,提出一种基于端到端深度学习模型U-Net的阵列转换方法(array converted method,ACM),对CB Map进行清晰化。首先使用18通道阵列CB Map作为输入、64通道阵列CB Map作为目标训练U-Net模型,然后使用训练好的残差神经网络(residual network,ResNet)作为DL-GFM方法的预测模型进行无网格声源坐标识别。仿真结果表明ACM方法具有良好的旁瓣消除和主瓣宽度减小能力,并且在1~8个声源范围内对非训练声源数目的情况同样有效。对于3声源的情况,ACM方法在全频段上提升了DL-GFM方法的精度。最后通过1个、2个、3个声源的试验验证了提出方法的有效性和可行性。 展开更多
关键词 声源识别 波束形成 U-Net模型 端到端深度学习 相控麦克风阵列
在线阅读 下载PDF
基于EfficientNetV2-RetNet的端到端中文管制语音识别
2
作者 梁海军 常瀚文 +2 位作者 何一民 赵志伟 孔建国 《电讯技术》 北大核心 2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获... 自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。 展开更多
关键词 空中交通管制 自动语音识别 端到端深度学习 迁移学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部