期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于ConvTCN-FLASH-Transducer的端到端语音识别
1
作者
代学欣
杨淑莹
《现代电子技术》
北大核心
2025年第12期47-53,共7页
针对语音识别编码器对FBank音频局部信息提取不足,不能充分挖掘帧与帧之间时序性的联系以及注意力机制复杂度高的问题,提出一种基于RNN-Transducer架构的ConvTCN-FLASH-Transducer模型。该模型采用卷积神经网络模块和FLASH注意力模块相...
针对语音识别编码器对FBank音频局部信息提取不足,不能充分挖掘帧与帧之间时序性的联系以及注意力机制复杂度高的问题,提出一种基于RNN-Transducer架构的ConvTCN-FLASH-Transducer模型。该模型采用卷积神经网络模块和FLASH注意力模块相结合的方法,首先使用多尺度卷积提取音频特征的局部信息,再通过时序卷积神经网络(TCN)提取音频特征中帧与帧之间的时序性特征,用于加强音频局部信息的联系。此外,采用挤压和激励机制增强不同通道之间的关联,并提升关键通道的重要程度。在中文开源普通话数据集THCHS30上进行训练和实验,结果表明,ConvTCN-FLASHTransducer模型最终字错误率降低至4.2%,识别效果更好。
展开更多
关键词
语音识别
时序卷积神经网络
FLASH模型
RNN-Transducer
特征提取
挤压和激励机制
在线阅读
下载PDF
职称材料
题名
基于ConvTCN-FLASH-Transducer的端到端语音识别
1
作者
代学欣
杨淑莹
机构
天津理工大学计算机科学与工程学院
出处
《现代电子技术》
北大核心
2025年第12期47-53,共7页
文摘
针对语音识别编码器对FBank音频局部信息提取不足,不能充分挖掘帧与帧之间时序性的联系以及注意力机制复杂度高的问题,提出一种基于RNN-Transducer架构的ConvTCN-FLASH-Transducer模型。该模型采用卷积神经网络模块和FLASH注意力模块相结合的方法,首先使用多尺度卷积提取音频特征的局部信息,再通过时序卷积神经网络(TCN)提取音频特征中帧与帧之间的时序性特征,用于加强音频局部信息的联系。此外,采用挤压和激励机制增强不同通道之间的关联,并提升关键通道的重要程度。在中文开源普通话数据集THCHS30上进行训练和实验,结果表明,ConvTCN-FLASHTransducer模型最终字错误率降低至4.2%,识别效果更好。
关键词
语音识别
时序卷积神经网络
FLASH模型
RNN-Transducer
特征提取
挤压和激励机制
Keywords
speech recognition
temporal convolutional neural
FLASH module
RNN-Transducer
feature extraction
squeeze and excitation mechanism
分类号
TN912.34-34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于ConvTCN-FLASH-Transducer的端到端语音识别
代学欣
杨淑莹
《现代电子技术》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部