期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于端到端深度学习的声源特征清晰化方法
1
作者
冯罗一
昝鸣
+2 位作者
徐中明
张志飞
李贞贞
《振动与冲击》
EI
CSCD
北大核心
2023年第21期133-141,共9页
基于深度学习的无网格声源识别方法突破了网格划分的限制,具有精度高、预测速度快的优点。在利用传统波束形成地图(conventional beamforming map,CB Map)提取声源位置特征时,随着传声器数目的减少,CB Map的成像性能会下降,进而影响深...
基于深度学习的无网格声源识别方法突破了网格划分的限制,具有精度高、预测速度快的优点。在利用传统波束形成地图(conventional beamforming map,CB Map)提取声源位置特征时,随着传声器数目的减少,CB Map的成像性能会下降,进而影响深度学习模型预测声源位置的精度。为了提高深度学习无网格方法(deep learning grid-free method,DL-GFM)的通用性,使其在较少传声器阵列的情况下有良好的性能,提出一种基于端到端深度学习模型U-Net的阵列转换方法(array converted method,ACM),对CB Map进行清晰化。首先使用18通道阵列CB Map作为输入、64通道阵列CB Map作为目标训练U-Net模型,然后使用训练好的残差神经网络(residual network,ResNet)作为DL-GFM方法的预测模型进行无网格声源坐标识别。仿真结果表明ACM方法具有良好的旁瓣消除和主瓣宽度减小能力,并且在1~8个声源范围内对非训练声源数目的情况同样有效。对于3声源的情况,ACM方法在全频段上提升了DL-GFM方法的精度。最后通过1个、2个、3个声源的试验验证了提出方法的有效性和可行性。
展开更多
关键词
声源识别
波束形成
U-Net模型
端到端深度学习
相控麦克风阵列
在线阅读
下载PDF
职称材料
基于EfficientNetV2-RetNet的端到端中文管制语音识别
2
作者
梁海军
常瀚文
+2 位作者
何一民
赵志伟
孔建国
《电讯技术》
北大核心
2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获...
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。
展开更多
关键词
空中交通管制
自动语音识别
端到端深度学习
迁移
学习
在线阅读
下载PDF
职称材料
题名
基于端到端深度学习的声源特征清晰化方法
1
作者
冯罗一
昝鸣
徐中明
张志飞
李贞贞
机构
重庆大学机械与运载工程学院
出处
《振动与冲击》
EI
CSCD
北大核心
2023年第21期133-141,共9页
基金
国家自然科学基金(11874096)。
文摘
基于深度学习的无网格声源识别方法突破了网格划分的限制,具有精度高、预测速度快的优点。在利用传统波束形成地图(conventional beamforming map,CB Map)提取声源位置特征时,随着传声器数目的减少,CB Map的成像性能会下降,进而影响深度学习模型预测声源位置的精度。为了提高深度学习无网格方法(deep learning grid-free method,DL-GFM)的通用性,使其在较少传声器阵列的情况下有良好的性能,提出一种基于端到端深度学习模型U-Net的阵列转换方法(array converted method,ACM),对CB Map进行清晰化。首先使用18通道阵列CB Map作为输入、64通道阵列CB Map作为目标训练U-Net模型,然后使用训练好的残差神经网络(residual network,ResNet)作为DL-GFM方法的预测模型进行无网格声源坐标识别。仿真结果表明ACM方法具有良好的旁瓣消除和主瓣宽度减小能力,并且在1~8个声源范围内对非训练声源数目的情况同样有效。对于3声源的情况,ACM方法在全频段上提升了DL-GFM方法的精度。最后通过1个、2个、3个声源的试验验证了提出方法的有效性和可行性。
关键词
声源识别
波束形成
U-Net模型
端到端深度学习
相控麦克风阵列
Keywords
sound source indentification
beamforming
U-Net model
end-to-end deep learning
phased microphone array
分类号
TN912.34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
基于EfficientNetV2-RetNet的端到端中文管制语音识别
2
作者
梁海军
常瀚文
何一民
赵志伟
孔建国
机构
中国民用航空飞行学院空中交通管理学院
出处
《电讯技术》
北大核心
2025年第2期254-260,共7页
基金
国家重点研发计划(2021YFF0603904)
中央高校基本科研业务费专项资金资助(PHD2023-035)
中央高校基本科研业务费资助项目(24CAFUC10195)。
文摘
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。
关键词
空中交通管制
自动语音识别
端到端深度学习
迁移
学习
Keywords
air traffic control
automatic speech recognition
end-to-end deep learning
transfer learning
分类号
V355.1 [航空宇航科学与技术—人机与环境工程]
TN912.34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于端到端深度学习的声源特征清晰化方法
冯罗一
昝鸣
徐中明
张志飞
李贞贞
《振动与冲击》
EI
CSCD
北大核心
2023
0
在线阅读
下载PDF
职称材料
2
基于EfficientNetV2-RetNet的端到端中文管制语音识别
梁海军
常瀚文
何一民
赵志伟
孔建国
《电讯技术》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部