期刊文献+
共找到76篇文章
< 1 2 4 >
每页显示 20 50 100
端到端语音到语音翻译的优化方法综述
1
作者 宗伟 赵悦 +1 位作者 李尹 徐晓娜 《计算机应用》 北大核心 2025年第5期1363-1371,共9页
语音到语音翻译(S2ST)是智能语音领域中新兴的研究方向,旨在将一种语言的语音准确翻译成另一种语言的语音。随着人们对跨语言交流需求的增加,S2ST受到广泛的关注,相关研究也不断涌现。传统的级联模型在S2ST过程中存在诸多问题,如错误传... 语音到语音翻译(S2ST)是智能语音领域中新兴的研究方向,旨在将一种语言的语音准确翻译成另一种语言的语音。随着人们对跨语言交流需求的增加,S2ST受到广泛的关注,相关研究也不断涌现。传统的级联模型在S2ST过程中存在诸多问题,如错误传播、推理延迟和无法翻译无文字系统的语言等,因此如何通过端到端模型实现直接S2ST成为当前研究的重点。在全面调查端到端S2ST的基础上,详细分析和归纳了端到端S2ST的各种模型,综述了已有的相关技术,将端到端S2ST面临的挑战总结为建模负担、数据稀缺和现实应用三类问题,并重点探讨了现有工作是如何解决这三类问题的。大语言模型(LLM)强大的理解和生成能力为S2ST提供了新的可能性,同时也带来了更多的挑战。因此,讨论了LLM在S2ST中的应用,并设想了未来可能的发展方向。 展开更多
关键词 端到端语音到语音翻译 建模负担 数据稀缺 现实应用 语音基石模型
在线阅读 下载PDF
基于EfficientNetV2-RetNet的端到端中文管制语音识别 被引量:1
2
作者 梁海军 常瀚文 +2 位作者 何一民 赵志伟 孔建国 《电讯技术》 北大核心 2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获... 自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。 展开更多
关键词 空中交通管制 自动语音识别 端到深度学习 迁移学习
在线阅读 下载PDF
结合字节级别字节对编码的端到端中文语音识别方法
3
作者 付强 徐振平 +1 位作者 盛文星 叶青 《计算机应用》 北大核心 2025年第1期318-324,共7页
针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并... 针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并合并频率最高的词汇单元;最后,重复上一步直至无法合并,以得到最终的词汇表。在中文语音数据集AISHELL-1上,该方法生成的词汇表相较于字符级别词汇表的词汇量减少了88.5%,降低了模型训练的复杂度。同时,鉴于Conformer-Transducer(Conformer-T)模型在端到端语音识别中的出色表现,为了实现更好的识别效果,将最新的Zipformer模型与Transducer模型相结合提出Zipformer-Transducer(Zipformer-T)模型,并在该模型上对BBPE方法进行验证。实验结果表明,Zipformer-T模型使用的BBPE方法相较于字符级别分词方法在AISHELL-1测试集和验证集上的字错率(CER)分别降低了0.12和0.08个百分点,且分别达到4.26%和3.98%的最低CER,充分说明该方法能有效提升中文语音识别的性能。 展开更多
关键词 语音识别 CONFORMER Zipformer 字节级别字节对编码 端到
在线阅读 下载PDF
基于端到端深度学习的数字语音源录音设备确认取证
4
作者 邹领 朱磊 +1 位作者 邓阳君 张红燕 《计算机科学》 北大核心 2025年第S1期958-964,共7页
音频编辑软件以及深度伪造(DeepFake)技术使得对数字音频和语音的篡改及伪造变得容易,因此,在将一段音频或语音录音作为有效的司法证据前,必须对其真实性和完整性进行鉴定。面向数字语音的录音设备源确认(SRDV)是数字音频设备源取证的... 音频编辑软件以及深度伪造(DeepFake)技术使得对数字音频和语音的篡改及伪造变得容易,因此,在将一段音频或语音录音作为有效的司法证据前,必须对其真实性和完整性进行鉴定。面向数字语音的录音设备源确认(SRDV)是数字音频设备源取证的关键问题之一,具体是指:给定一段数字语音录音和一个录音设备,判断该录音是否是由该设备所录制。近年来,深度学习技术在许多领域得到了广泛应用并取得了很好的效果,但目前与录音设备源识别相关的工作主要集中于录音设备源辨认(SRDI)中,尚未有基于深度学习的SRDV方法的报道。文中提出了一种新颖的基于端到端(E2E)深度学习的录音设备源取证方法,从语音录音中提取FBank特征来表征设备指纹并作为深度神经网络结构的输入,深度神经网络结构采用一个调整参数的VGG-M网络,并通过自注意力池化(SAP)层和全连接层来提取录音设备特征向量(RDE)。整个网络基于通用端到端(GE2E)损失函数来进行训练。采用等错误率(EER)作为性能评估准则,在划分好的开发集和测试集上进行录音设备源确认实验,实验结果表明所提方法显著提升了录音设备源确认的性能。 展开更多
关键词 数字语音取证 获取设备取证 录音设备源确认 录音设备特征向量 端到深度学习
在线阅读 下载PDF
基于字节对编码的端到端藏语语音识别研究
5
作者 蔡郁青 仁增多杰 +3 位作者 尼玛扎西 王超 朱宇雷 张瑾 《中文信息学报》 北大核心 2025年第4期172-178,共7页
针对藏语端到端语音识别研究中存在的建模单元不统一和识别效果不理想的问题,该文提出了一种BPE-Conformer-CTC/Attention端到端藏语语音识别方法。首先,该方法采用了字节对编码算法进行语音建模,通过反复合并出现频率最高的字符对,将... 针对藏语端到端语音识别研究中存在的建模单元不统一和识别效果不理想的问题,该文提出了一种BPE-Conformer-CTC/Attention端到端藏语语音识别方法。首先,该方法采用了字节对编码算法进行语音建模,通过反复合并出现频率最高的字符对,将文本分割成易于管理、有意义的单元,平衡建模单元的粒度,从而解决藏语语音识别中建模单元不统一的问题。其次,使用了Conformer编码器,有效地融合了音频序列的全局和局部依赖关系,从而增强了模型的表征能力。最后,通过CTC/Attention联合解码策略,加速了对齐和解码过程,进而提高了识别效果的准确性和效率。在开源数据集XBMU-AMDO31和TIBMD@MUC上的实验结果表明,该文所提出的BPE-Conformer-CTC/Attention模型分别取得了9.0%和4.6%的词错误率,相较于基线模型Transformer-CTC/Attention,词错误率分别相对降低了14.2%和30.3%。该研究方法为藏语端到端语音识别任务提供了一种有效的解决方案。 展开更多
关键词 藏语语音识别 端到 字节对编码 安多方言
在线阅读 下载PDF
基于多层次预训练策略和多任务学习的端到端蒙汉语音翻译
6
作者 王宁宁 飞龙 张晖 《中文信息学报》 CSCD 北大核心 2024年第10期71-79,共9页
端到端语音翻译将源语言语音直接翻译为目标语言文本,其需要“源语言语音-目标语言文本”作为训练数据,然而这类数据极其稀缺,该文提出了一种多层次预训练策略和多任务学习相结合的训练方法,首先分别对语音识别和机器翻译模型的各个模... 端到端语音翻译将源语言语音直接翻译为目标语言文本,其需要“源语言语音-目标语言文本”作为训练数据,然而这类数据极其稀缺,该文提出了一种多层次预训练策略和多任务学习相结合的训练方法,首先分别对语音识别和机器翻译模型的各个模块进行多层次预训练,接着将语音识别和机器翻译模型连接起来构成语音翻译模型,然后使用迁移学习对预训练好的模型进行多步骤微调,在此过程中又运用多任务学习的方法,将语音识别作为语音翻译的一个辅助任务来组织训练,充分利用了已经存在的各种不同形式的数据来训练端到端模型,首次将端到端技术应用于资源受限条件下的蒙汉语音翻译,构建了首个翻译质量较高、实际可用的端到端蒙汉语音翻译系统。 展开更多
关键词 蒙古语 端到语音翻译 预训练 多任务学习
在线阅读 下载PDF
基于改进Conformer的新闻领域端到端语音识别 被引量:4
7
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到语音识别 CONFORMER 句子层级一致性
在线阅读 下载PDF
基于不同单元的端到端语音识别 被引量:1
8
作者 张岩 艾斯卡尔·艾木都拉 米吉提·阿不里米提 《中文信息学报》 CSCD 北大核心 2024年第1期166-172,共7页
端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序... 端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的HMM语音识别框架进行比较。单音素基础上端到端方法的表现超过传统HMM-GMM框架,CER下降10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的HMM-GMM系统CER下降2.23%。对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标。 展开更多
关键词 端到技术 语音识别 维吾尔语 链接时序分类
在线阅读 下载PDF
完全端到端的藏语语音合成方法 被引量:1
9
作者 拉巴顿珠 官政先 +2 位作者 德庆卓玛 张恒 珠杰 《中文信息学报》 CSCD 北大核心 2024年第9期82-92,116,共12页
在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性... 在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性差且推理速度慢的问题,研究了基于深度生成模型的完全端到端VITS模型及其在藏语语音合成中的应用。首先,通过自然语音采集、自动标注和声学分析等构建一个7000条中等规模的藏语卫藏方言语音数据库;其次,由于现有开源模型不能很好地表征藏文音节结构特征,且现有相关描述无法全面地刻画藏语语音结构,为此提出了现代藏文存在7种字形结构的主张,并将其转写成对应的音素序列作为模型的输入;最后,经典的开源模型VITS应用在上述语音数据上进行了藏语语音合成试验。同时,为了提高合成系统的鲁棒性,在模型中引入了预训练的音素强制对齐信息。实验结果表明,相比两阶段的方法,通过端到端建模不仅有效减少了模型的推理时间,进一步提高合成语音的质量,而且基于7种藏文字形结构的音素序列作为建模单元,显著提升藏语音段特征的覆盖率,从而缓解低资源且黏着语常见的数据稀疏带来发音错误,以及音素分散导致模型训练困难问题。 展开更多
关键词 语音合成 藏语 音节结构 字音转换 端到
在线阅读 下载PDF
语音实验室端到端即时通信认证协议设计
10
作者 何锴 《现代电子技术》 北大核心 2024年第11期18-21,共4页
为保证语音实验室端到端即时通信安全,确保语音内容不被窃听和篡改,提出一种基于混合加解密的语音实验室端到端即时通信认证协议的设计方法。利用RSA方法加解密发送方传输的即时通信会话密钥,通过3DES方法将发送方发送的明文语音信息进... 为保证语音实验室端到端即时通信安全,确保语音内容不被窃听和篡改,提出一种基于混合加解密的语音实验室端到端即时通信认证协议的设计方法。利用RSA方法加解密发送方传输的即时通信会话密钥,通过3DES方法将发送方发送的明文语音信息进行加解密。在加解密过程中,加密信息打包为加密包后发送至信息接收方,信息接收方获取加密包后,使用RSA方法、3DES方法进行有效的密钥解密认证、明文语音消息解密,获取语音实验室端到端的明文语音信息。实验结果显示,此协议使用下,语音实验室端到端即时通信的认证加速比提升,且仅在密钥输入内容准确的情况下,信息接收方才可得到准确的明文语音消息内容,且不存在内容失真问题。 展开更多
关键词 语音实验室 端到 即时通信 认证协议 RSA算法 3DES方法 密钥加解密 明文加解密
在线阅读 下载PDF
跨模态信息融合的端到端语音翻译 被引量:11
11
作者 刘宇宸 宗成庆 《软件学报》 EI CSCD 北大核心 2023年第4期1837-1849,共13页
语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本.相比于级联式翻译系统,端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势,因此越来越多地受到研究者们的关注.但是,端到端的语音翻译方法不仅需要处理较... 语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本.相比于级联式翻译系统,端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势,因此越来越多地受到研究者们的关注.但是,端到端的语音翻译方法不仅需要处理较长的语音序列,提取其中的声学信息,而且需要学习源语言语音和目标语言文本之间的对齐关系,从而导致建模困难,且性能欠佳.提出一种跨模态信息融合的端到端的语音翻译方法,该方法将文本机器翻译与语音翻译模型深度结合,针对语音序列长度与文本序列长度不一致的问题,通过过滤声学表示中的冗余信息,使过滤后的声学状态序列长度与对应的文本序列尽可能一致;针对对齐关系难学习的问题,采用基于参数共享的方法将文本机器翻译模型嵌入到语音翻译模型中,并通过多任务训练方法学习源语言语音与目标语言文本之间的对齐关系.在公开的语音翻译数据集上进行的实验表明,所提方法可以显著提升语音翻译的性能. 展开更多
关键词 语音翻译 神经机器翻译 端到模型 多模态学习
在线阅读 下载PDF
基于目标语言预训练和联合解码的低资源语言端到端语音翻译
12
作者 李宁 朱丽平 +2 位作者 赵小兵 仁曾卓玛 王燕敏 《中文信息学报》 CSCD 北大核心 2023年第12期36-43,共8页
自动语音翻译(AST)是将源语言语音转换为目标语言文字的技术。目前,端到端的语音翻译成为AST的研究主流,但面临数据稀缺问题。该文首先利用机器翻译和人工检验构建了20h的维吾尔语-汉语AST语音翻译数据集。其次,为提高端到端语音翻译模... 自动语音翻译(AST)是将源语言语音转换为目标语言文字的技术。目前,端到端的语音翻译成为AST的研究主流,但面临数据稀缺问题。该文首先利用机器翻译和人工检验构建了20h的维吾尔语-汉语AST语音翻译数据集。其次,为提高端到端语音翻译模型的性能,使用语料相对丰富的目标语言语音识别数据集预训练模型,不仅解决了数据稀缺造成的模型无法收敛问题,而且能让模型学到目标语言的语言学知识;再次,在预训练解码器前添加映射模块,使其学到源语言到目标语言知识的映射关系,由此构建了端到端语音翻译模型。最后,使用CTC与Attention联合解码,强制语音标签对齐,提高翻译效果。实验结果表明,在维汉语音翻译数据集上达到了61.45 BLEU值。 展开更多
关键词 语音翻译 端到 数据集构建
在线阅读 下载PDF
基于编辑约束的端到端越南语文本正则化方法
13
作者 蒋铭 王琳钦 +1 位作者 赖华 高盛祥 《计算机应用》 北大核心 2025年第2期362-370,共9页
文本正则化是语音合成(TTS)前端分析任务中不可或缺的步骤,而语义歧义性是文本正则化任务面临的主要问题,比如数字、日期、时间等非标准词的语义歧义性。针对该问题,提出一种基于编辑约束的端到端文本正则化方法,并且在充分考虑越南语... 文本正则化是语音合成(TTS)前端分析任务中不可或缺的步骤,而语义歧义性是文本正则化任务面临的主要问题,比如数字、日期、时间等非标准词的语义歧义性。针对该问题,提出一种基于编辑约束的端到端文本正则化方法,并且在充分考虑越南语的语言特点后,设计专门用于越南语的标注方法,以提高模型对上下文语义信息的建模能力。此外,针对神经网络模型容易产生不可恢复性错误的问题,提出一种编辑对齐算法以有效约束非标准词文本的范围,减小解码端的搜索空间,从而避免模型自身局限性所导致的非正则化文本预测错误。选取FastCorrect模型作为基准模型,将各类优化方法应用到基准模型中得到新模型。实验结果表明,所提模型在越南语不同优化方式的对比实验中的精准率相比使用无标注数据的基准模型提高了23.71个百分点,在同类中文实验中的精准率提高了26.24个百分点。可见,所提方法不仅在越南语上表现出色,而且在中文开源数据上也取得了显著的效果,验证了该方法在越南语之外的适用性。而且,与六类基线模型相比,使用所提方法的模型取得了最高的97.14%的精准率,在F1值上超过加权有限状态转换器(WFST)的两阶段方法2.29个百分点,证明了所提方法在文本正则化任务上的优越性。 展开更多
关键词 越南语 文本正则化 编辑对齐算法 语音合成 端到
在线阅读 下载PDF
基于RefineNet的端到端语音增强方法 被引量:3
14
作者 蓝天 彭川 +3 位作者 李森 钱宇欣 陈聪 刘峤 《自动化学报》 EI CAS CSCD 北大核心 2022年第2期554-563,共10页
为提高神经网络对语音信号时域波形的直接处理能力,提出了一种基于RefineNet的端到端语音增强方法.本文构建了一个时频分析神经网络,模拟语音信号处理中的短时傅里叶变换,利用RefineNet网络学习含噪语音到纯净语音的特征映射.在模型训... 为提高神经网络对语音信号时域波形的直接处理能力,提出了一种基于RefineNet的端到端语音增强方法.本文构建了一个时频分析神经网络,模拟语音信号处理中的短时傅里叶变换,利用RefineNet网络学习含噪语音到纯净语音的特征映射.在模型训练阶段,用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility,STOI)与信源失真比(Source to distortion ratio,SDR)融入到训练的损失函数.在与具有代表性的传统方法和端到端的深度学习方法的对比实验中,本文提出的算法在客观评价指标上均取得了最好的增强效果,并且在未知噪声和低信噪比条件下表现出更好的抗噪性. 展开更多
关键词 语音增强 端到 RefineNet 多目标联合优化 深度神经网络
在线阅读 下载PDF
基于条件变分自编码器的端到端情感语音合成方法 被引量:4
15
作者 张建明 彭锦涛 +1 位作者 贾洪杰 毛启容 《信号处理》 CSCD 北大核心 2023年第4期678-687,共10页
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均... 情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法(Conditional Duration-Tacotron,CD-Tacotron),该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。 展开更多
关键词 情感语音合成 条件变分自编码器 端到 Tacotron
在线阅读 下载PDF
WTSTC:基于广域时频采样和时序感知卷积的语音识别模型
16
作者 刘立波 王詠森 +1 位作者 刘倩 邓箴 《中文信息学报》 北大核心 2025年第4期161-171,共11页
针对现有语音识别模型存在的时频特征感受野不足、时序特征损失及模型结构扩展性较差等方面的问题,该文提出基于广域时频采样和时序感知卷积的语音识别模型WTSTC,在保证模型轻量化的同时提升识别精度。首先,通过结合RepLKNet模块和传统... 针对现有语音识别模型存在的时频特征感受野不足、时序特征损失及模型结构扩展性较差等方面的问题,该文提出基于广域时频采样和时序感知卷积的语音识别模型WTSTC,在保证模型轻量化的同时提升识别精度。首先,通过结合RepLKNet模块和传统卷积下采样模块,构建了一种新型的广域时频采样模块,增大感受野的同时更加关注输入音频序列的时频特征;其次,设计了时序感知卷积模块,通过实现应用于时序特征的一维全局响应归一化层取代原有的Batch Norm以增强通道间的特征竞争,避免了归一化过程中语音信号的时序特征信息丢失的潜在可能;最后,在模型内部各模块间引入Droppath正则化方法,通过在模块间随机跳跃样本避免模型对特定模块的依赖。实验结果表明,该方法在中文公共数据集AISHELL-1的测试集上字错率为4.27%,在更大规模英文公共数据集Librispeech的测试集clean和other上的词错率分别为2.2%和5.1%。在保持相同训练策略的前提下,该方法相较现有先进模型展现出更优异的性能。 展开更多
关键词 自动语音识别 端到 CONFORMER RepLKNet
在线阅读 下载PDF
ACGFN:基于非对称卷积和门控前馈神经网络的语音识别模型
17
作者 王詠森 刘倩 刘立波 《中文信息学报》 北大核心 2025年第1期167-174,共8页
针对现有基于Conformer语音识别模型对时频特征提取能力不足、模型结构冗余和参数量较大的问题,该文提出一个基于非对称卷积和门控前馈神经网络的语音识别模型ACGFN。首先,采用不同感受野大小的非对称卷积对语音序列的时频特征进行多尺... 针对现有基于Conformer语音识别模型对时频特征提取能力不足、模型结构冗余和参数量较大的问题,该文提出一个基于非对称卷积和门控前馈神经网络的语音识别模型ACGFN。首先,采用不同感受野大小的非对称卷积对语音序列的时频特征进行多尺度融合下采样,在增强模型提取时频特征的能力的同时,有效降低了下采样过程中信息的损失;其次,引入门控前馈模块替换Conformer中的双半步前馈网络,降低网络参数量的同时精简了模型结构。实验结果表明,该方法在公共数据集AISHELL-1和aidatatang_200zh的测试集上字错误率分别为4.48%、4.28%,且参数量仅40.3M。相较对比方法,识别字错误率和参数量均有所降低。 展开更多
关键词 语音识别 端到 CONFORMER
在线阅读 下载PDF
一种基于卷积神经网络的端到端语音分离方法 被引量:14
18
作者 范存航 刘斌 +2 位作者 陶建华 温正棋 易江燕 《信号处理》 CSCD 北大核心 2019年第4期542-548,共7页
大部分的语音分离系统仅仅增强混合的幅值谱(短时傅里叶变换的系数),但是对于相位谱却不做任何处理。然而,最近的研究表明相位信息对于语音分离的质量起着很重要的作用。为了同时利用幅值和相位信息,本文提出了一种有效的端到端分离方... 大部分的语音分离系统仅仅增强混合的幅值谱(短时傅里叶变换的系数),但是对于相位谱却不做任何处理。然而,最近的研究表明相位信息对于语音分离的质量起着很重要的作用。为了同时利用幅值和相位信息,本文提出了一种有效的端到端分离方法。这种方法是直接利用原始语音波行点作为特征,是一种基于编解码器的卷积神经网络结构。跟其他的说话人独立的语音分离系统不同,本文提出的方法其神经网络只输出一个说话人的信号,其他的语音可以由混合语音与网络输出信号的差值获得。我们在TIMIT数据集上验证本文提出的方法。实验结果表明,本文提出的方法明显优于句子级别的排列不变性训练(utterance-level permutation invariant training,uPIT)基线方法,对于信号失真比(signal-to-distortion ratio,SDR)相对提高了16.06%。 展开更多
关键词 说话人独立语音分离 鸡尾酒会问题 端到 卷积编解码器
在线阅读 下载PDF
基于WaveNet的端到端语音合成方法 被引量:11
19
作者 邱泽宇 屈丹 张连海 《计算机应用》 CSCD 北大核心 2019年第5期1325-1329,共5页
针对端到端语音合成系统中Griffin-Lim算法恢复相位信息合成语音保真度较低、人工处理痕迹明显的问题,提出了一种基于WaveNet网络架构的端到端语音合成方法。以序列映射Seq2Seq结构为基础,首先将输入文本转化为one-hot向量,然后引入注... 针对端到端语音合成系统中Griffin-Lim算法恢复相位信息合成语音保真度较低、人工处理痕迹明显的问题,提出了一种基于WaveNet网络架构的端到端语音合成方法。以序列映射Seq2Seq结构为基础,首先将输入文本转化为one-hot向量,然后引入注意力机制获取梅尔声谱图,最后利用WaveNet后端处理网络重构语音信号的相位信息,从而将梅尔频谱特征逆变换为时域波形样本。实验的测试语料为LJSpeech-1.0和THchs-30,针对英语、汉语两个语种进行了实验,实验结果表明平均意见得分(MOS)分别为3.31、3.02,在合成自然度方面优于采用Griffin-Lim算法的端到端语音合成系统以及参数式语音合成系统。 展开更多
关键词 语音合成 端到 Seq2Seq Griffin-Lim算法 WaveNet
在线阅读 下载PDF
采用注意力机制和多任务训练的端到端无语音识别关键词检索系统 被引量:20
20
作者 赵泽宇 张卫强 刘加 《信号处理》 CSCD 北大核心 2020年第6期839-851,共13页
传统的关键词搜索(KWS,Keyword Search)系统依靠自动语音识别(ASR,Automatic Speech Recognition),通常在资源不足的情况下很难训练。为了免去训练完整的语音识别系统,无语音识别(ASR-free)的关键词检索系统受到越来越多的欢迎。本文提... 传统的关键词搜索(KWS,Keyword Search)系统依靠自动语音识别(ASR,Automatic Speech Recognition),通常在资源不足的情况下很难训练。为了免去训练完整的语音识别系统,无语音识别(ASR-free)的关键词检索系统受到越来越多的欢迎。本文提出了一个端到端(E2E,End-to-End)的关键词检索系统,该系统由两个编码器,两个解码器,一个注意机制和一个判别器组成。本文在所提出的系统中引入了注意力机制,该机制可以合并编码器输出的文本和音频特征从而辅助定位关键词所在的位置。在文本和音频解码器的不同组合情况下,使用Babel阿萨姆语和普什图语数据集测试系统。实验结果表明,相比于基线系统而言,该系统拥有更好的检测性能。相比于基于语音识别的关键词检索系统,该系统对于集外词(OOV,Out-Of-Vocabulary),在STWV(Supremum Term Weighted Value)指标上,取得了更好的效果。当训练数据量受限时,该系统比基于语音识别的关键词检索系统更具有优势。 展开更多
关键词 关键词检索 语音识别 端到 低资源语种
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部