期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于改进Conformer的新闻领域端到端语音识别 被引量:4
1
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到端语音识别 CONFORMER 句子层级一致性
在线阅读 下载PDF
基于Conformer的端到端语音识别模型的压缩优化策略 被引量:2
2
作者 桑江坤 努尔麦麦提·尤鲁瓦斯 《信号处理》 CSCD 北大核心 2022年第12期2639-2649,共11页
随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以... 随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以在资源有限的设备上部署和推理是受限的。该文为了保证模型精度损失较小的情况下,尽可能地减少模型的大小和计算量,分别采用了模型量化,基于权重通道的结构化剪枝以及奇异值分解等三种压缩优化策略,同时对模型量化进行了改进。探究了不同程度的压缩对模型精度损失所造成的影响。通过结合这些策略在不同设备进行了测试,相比于基线在其字错误率误差小于3%的情况下,模型推理识别的速度约提升3~4倍。 展开更多
关键词 深度学习 端到端语音识别 CONFORMER 量化 剪枝 分解
在线阅读 下载PDF
TCN-Transformer-CTC的端到端语音识别 被引量:19
3
作者 谢旭康 陈戈 +1 位作者 孙俊 陈祺东 《计算机应用研究》 CSCD 北大核心 2022年第3期699-703,共5页
基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经... 基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型。在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果表明,TCN-Transformer-CTC相较于Transformer字错误率相对降低了10.91%,模型最终字错误率降低至5.31%,验证了提出的模型具有一定的先进性。 展开更多
关键词 端到端语音识别 TRANSFORMER 时序卷积神经网络 连接时序分类
在线阅读 下载PDF
基于分解门控注意力单元的高效Conformer模型
4
作者 李宜亭 屈丹 +2 位作者 杨绪魁 张昊 沈小龙 《计算机工程》 CAS CSCD 北大核心 2023年第5期73-80,共8页
为利用有限的存储和计算资源,在保证Conformer端到端语音识别模型精度的前提下,减少模型参数量并加快训练和识别速度,构建一个基于分解门控注意力单元与低秩分解的高效Conformer模型。在前馈和卷积模块中,通过低秩分解进行计算加速,提高... 为利用有限的存储和计算资源,在保证Conformer端到端语音识别模型精度的前提下,减少模型参数量并加快训练和识别速度,构建一个基于分解门控注意力单元与低秩分解的高效Conformer模型。在前馈和卷积模块中,通过低秩分解进行计算加速,提高Conformer模型的泛化能力。在自注意力模块中,使用分解门控注意力单元降低注意力计算复杂度,同时引入余弦加权机制对门控注意力进行加权保证其向邻近位置集中,提高模型识别精度。在AISHELL-1数据集上的实验结果表明,在引入分解门控注意力单元和余弦编码后,该模型的参数量和语音识别字符错误率(CER)明显降低,尤其当参数量被压缩为Conformer端到端语音识别模型的50%后语音识别CER仅增加了0.34个百分点,并且具有较低的计算复杂度和较高的语音识别精度。 展开更多
关键词 端到端语音识别 Conformer模型 分解门控注意力单元 模型压缩 低秩分解
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部