期刊文献+
共找到72篇文章
< 1 2 4 >
每页显示 20 50 100
融合双通道卷积和改进型Conformer的两阶段语音增强算法
1
作者 徐佳瑜 郑展恒 +1 位作者 曾庆宁 王健 《电子测量技术》 北大核心 2025年第4期149-157,共9页
针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息... 针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息,并结合门控机制增强网络的短期与长期序列相关性,从而提升模型在复杂环境下的语音增强效果;提出改进型Conformer,采用时间注意和频率注意分别在时域和频域上进行建模,并结合膨胀卷积模块高效提取局部与全局上下文信息,从而增强网络在语音序列建模中的表现能力。其次,针对模型结构单一的问题,采用两阶段处理结构,将复杂问题分步处理。在第一阶段首先接收噪声频谱的幅值,初步估计出干净语音的幅值,并与噪声相位进行重构,得到粗糙的复频谱。第二阶段在第一阶段得到粗谱的基础上进一步提取更精细的特征,增强语音信号的细节表现能力。最后,在VoiceBank+DEMAND数据集上进行测试,实验结果表明,所提算法相比带噪语音的语音感知质量和短时客观可懂度分别提升50.25%、3.26%,表明该网络能够更有效地提高语音的可懂度,同时改善语音信号的整体质量,具有较强的降噪能力。 展开更多
关键词 深度学习 语音增强 conformer 多尺度特征提取 两阶段
在线阅读 下载PDF
基于Conformer-LSTM模型的连续无创血压预测方法
2
作者 陈欣 刘立程 王小林 《电子测量技术》 北大核心 2025年第15期120-128,共9页
本研究提出了一种基于Conformer-LSTM模型的连续无创血压预测方法,模型包括卷积支路、Transformer支路、两个多尺度交叉注意力模块、自适应空间特征融合模块和两层LSTM。通过该方法,仅通过输入PPG信号即可预测对应的ABP波形,收缩压和舒... 本研究提出了一种基于Conformer-LSTM模型的连续无创血压预测方法,模型包括卷积支路、Transformer支路、两个多尺度交叉注意力模块、自适应空间特征融合模块和两层LSTM。通过该方法,仅通过输入PPG信号即可预测对应的ABP波形,收缩压和舒张压通过预测的ABP波形得出。此外,该方法在较大的数据集中取得较小的预测误差,实验结果表明,本文提出的模型在MIMIC数据集中预测的ABP波形与实际波形的拟合程度较好,SBP和DBP的预测误差分别为(3.68±5.60)mmHg和(2.16±3.72)mmHg,该方法符合美国医疗仪器促进协会(AAMI)标准,并在英国高血压协会(BHS)标准中获得A级评价。 展开更多
关键词 血压预测 多尺度特征融合 conformer PPG信号
在线阅读 下载PDF
多任务学习型民航陆空通话语音识别Conformer模型
3
作者 马广林 任晋 +3 位作者 师一华 张海刚 王莉 杨金锋 《计算机应用与软件》 北大核心 2025年第10期183-190,244,共9页
民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引... 民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引入Transformer模型,Conformer模型在保留上下文长距离依赖关系的全局信息建模能力基础上,进一步增强了局部信息的捕获。同时联合连接时序分类(Connectionist Temporal Classification,CTC)和基于注意力的编码解码模型进行多任务学习以进一步提升其性能。实验结果表明,该方法能有效兼顾全局和局部信息的声学建模,在陆空通话数据集上将字符错误率和句错误率分别降低至1.98%和2.89%。 展开更多
关键词 民航陆空通话 语音识别 多任务学习 conformer 端到端
在线阅读 下载PDF
基于改进Conformer的新闻领域端到端语音识别 被引量:4
4
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到端语音识别 conformer 句子层级一致性
在线阅读 下载PDF
基于Conformer的端到端语音识别方法 被引量:3
5
作者 胡从刚 申艺翔 +1 位作者 孙永奇 赵思聪 《计算机应用研究》 CSCD 北大核心 2024年第7期2018-2024,共7页
针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将... 针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将多分支融合为单分支,以降低计算复杂度、加快模型推理速度。然后,利用基于压缩和激励网络的通道注意力机制弥补缺失的通道特征信息,以提高语音识别准确率。最后,在公开数据集Aishell-1上的实验结果表明:相较于Conformer,所提出方法的字错误率降低了10.67%,验证了方法的先进性。此外,RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型的整体性能,具有很好的泛化能力。 展开更多
关键词 语音识别 conformer RepVGG 压缩和激励网络
在线阅读 下载PDF
基于层次化Conformer的语音合成
6
作者 吴克伟 韩超 +2 位作者 孙永宣 彭梦昊 谢昭 《计算机科学》 CSCD 北大核心 2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于... 语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。 展开更多
关键词 语音合成 文本编码器 语音编码器 层次化模型 conformer
在线阅读 下载PDF
基于多尺度阶梯时频Conformer GAN的语音增强算法 被引量:4
7
作者 金玉堂 王以松 +1 位作者 王丽会 赵鹏利 《计算机应用》 CSCD 北大核心 2023年第11期3607-3615,共9页
针对频率域语音增强算法中因相位混乱产生人工伪影,导致去噪性能受限、语音质量不高的问题,提出一种基于多尺度阶梯型时频Conformer生成对抗网络(MSLTF-CMGAN)的语音增强算法。将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在... 针对频率域语音增强算法中因相位混乱产生人工伪影,导致去噪性能受限、语音质量不高的问题,提出一种基于多尺度阶梯型时频Conformer生成对抗网络(MSLTF-CMGAN)的语音增强算法。将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在多个尺度上利用时间-频率Conformer学习时域和频域的全局及局部特征依赖;其次,利用Mask Decoder分支学习振幅掩码,而Complex Decoder分支则直接学习干净的语谱图,融合这两个Decoder分支的输出可得到重建后的语音;最后,利用指标判别器判别语音的评价指标得分,通过极大极小训练使生成器生成高质量的语音。采用主观评价平均意见得分(MOS)和客观评价指标在公开数据集VoiceBank+Demand上与各类语音增强模型进行对比,结果显示,所提算法的MOS信号失真(CSIG)和MOS噪声失真(CBAK)比目前最先进的方法CMGAN(基于Conformer的指标生成对抗网络语音增强模型)分别提高了0.04和0.07,尽管它的MOS整体语音质量(COVL)和语音质量的感知评估(PESQ)略低于CMGAN,但与其他对比模型相比在多项主客观语音质量评估方面的评分均处于领先水平。 展开更多
关键词 语音增强 多尺度 conformer 生成对抗网络 指标判别器 深度学习
在线阅读 下载PDF
基于Conformer的端到端语音识别模型的压缩优化策略 被引量:2
8
作者 桑江坤 努尔麦麦提·尤鲁瓦斯 《信号处理》 CSCD 北大核心 2022年第12期2639-2649,共11页
随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以... 随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以在资源有限的设备上部署和推理是受限的。该文为了保证模型精度损失较小的情况下,尽可能地减少模型的大小和计算量,分别采用了模型量化,基于权重通道的结构化剪枝以及奇异值分解等三种压缩优化策略,同时对模型量化进行了改进。探究了不同程度的压缩对模型精度损失所造成的影响。通过结合这些策略在不同设备进行了测试,相比于基线在其字错误率误差小于3%的情况下,模型推理识别的速度约提升3~4倍。 展开更多
关键词 深度学习 端到端语音识别 conformer 量化 剪枝 分解
在线阅读 下载PDF
使用Conformer增强的混合CTC/Attention端到端中文语音识别 被引量:10
9
作者 陈戈 谢旭康 +1 位作者 孙俊 陈祺东 《计算机工程与应用》 CSCD 北大核心 2023年第4期97-103,共7页
最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问... 最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问题,使用Conformer代替Transformer,提出Conformer-LAS模型。由于Attention过于灵活的对齐方式,使得在嘈杂环境中的效果急剧下降,采用连接时序分类(connectionist temporal classification,CTC)辅助训练以加快收敛,并加入音素级别的中间CTC损失联合优化,提出了效果更好的Conformer-LAS-CTC语音识别模型。在开源中文普通话Aishell-1数据集上对提出来的模型进行验证,实验结果表明,Conformer-LAS-CTC相对于采用的基线BLSTM-LAS和Transformer-LAS模型在测试集上的字错率分别相对降低了22.58%和48.76%,模型最终字错误率为4.54%。 展开更多
关键词 端到端 语音识别 conformer LAS 连接时序分类
在线阅读 下载PDF
基于U-Conformer的多特征融合鸟鸣声分离方法
10
作者 倪东明 石煜炜 +1 位作者 夏灿玮 谢将剑 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第3期388-395,共8页
针对多个鸟类个体同时发声导致的鸣声混叠问题,本文提出了一种融合录音通道间空间特征的鸟类鸣声分离方法.该方法将混叠鸣声信号的声谱特征和空间特征作为分离模型的输入,提出深度学习模型U-Conformer来预测每个鸣声源方向的幅值谱掩膜(... 针对多个鸟类个体同时发声导致的鸣声混叠问题,本文提出了一种融合录音通道间空间特征的鸟类鸣声分离方法.该方法将混叠鸣声信号的声谱特征和空间特征作为分离模型的输入,提出深度学习模型U-Conformer来预测每个鸣声源方向的幅值谱掩膜(spectral magnitude mask,SMM),通过模型估计的SMM从混叠鸣声信号中恢复每个鸣声源信号.由多源混叠鸟类鸣声数据的实验结果表明,本文提出的分离方法较其他深度学习模型结构具有更好的分离效果,有助于更好地分析野外鸟类鸣声录音. 展开更多
关键词 鸟鸣声分离 空间特征 conformer 幅值谱掩膜
在线阅读 下载PDF
基于分解门控注意力单元的高效Conformer模型 被引量:1
11
作者 李宜亭 屈丹 +2 位作者 杨绪魁 张昊 沈小龙 《计算机工程》 CAS CSCD 北大核心 2023年第5期73-80,共8页
为利用有限的存储和计算资源,在保证Conformer端到端语音识别模型精度的前提下,减少模型参数量并加快训练和识别速度,构建一个基于分解门控注意力单元与低秩分解的高效Conformer模型。在前馈和卷积模块中,通过低秩分解进行计算加速,提高... 为利用有限的存储和计算资源,在保证Conformer端到端语音识别模型精度的前提下,减少模型参数量并加快训练和识别速度,构建一个基于分解门控注意力单元与低秩分解的高效Conformer模型。在前馈和卷积模块中,通过低秩分解进行计算加速,提高Conformer模型的泛化能力。在自注意力模块中,使用分解门控注意力单元降低注意力计算复杂度,同时引入余弦加权机制对门控注意力进行加权保证其向邻近位置集中,提高模型识别精度。在AISHELL-1数据集上的实验结果表明,在引入分解门控注意力单元和余弦编码后,该模型的参数量和语音识别字符错误率(CER)明显降低,尤其当参数量被压缩为Conformer端到端语音识别模型的50%后语音识别CER仅增加了0.34个百分点,并且具有较低的计算复杂度和较高的语音识别精度。 展开更多
关键词 端到端语音识别 conformer模型 分解门控注意力单元 模型压缩 低秩分解
在线阅读 下载PDF
复数双路径Conformer和深度复数卷积循环神经网络结合的语声增强方法
12
作者 郝鑫语 伍忠东 +1 位作者 杨充六合 楚秦 《应用声学》 2025年第6期1652-1661,共10页
针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称... 针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称为Conformer-CRN。将DCCRN中的复数长短时记忆网络模块替换为复数双路径Conformer模块,能够有效捕捉长距离的时-频依赖,更全面地利用全局上下文信息。此外,还在编解码器中增加了复数通道注意力机制模块,进一步提高增强语声的质量。在公开数据集Voice Bank+DEMAND上的实验结果显示,所提出的模型使用更少的参数,在主客观语声质量评估都取得更优的结果。与SE-Conformer相比,增强后的语声感知质量增长了3.20%;与MetricGAN+相比,预测信号失真度增长了7.17%,预测噪声失真度增长了9.97%,预测综合质量测度增长了3.44%。该研究为基于深度学习中参数映射的语声增强方法的发展提供了一定的参考。 展开更多
关键词 深度学习 语声增强 conformer DCCRN 复数通道注意力机制
在线阅读 下载PDF
基于多特征迁移学习的低资源临高方言语音识别方法
13
作者 王忠 曹春杰 +3 位作者 谢夏 穆罕默德·艾哈迈德·拉扎 陈勇青 陈昱珏 《通信学报》 北大核心 2025年第10期221-232,共12页
针对低资源临高方言语音识别中数据稀缺、字错误率高的问题,提出了一种基于多特征迁移学习的端到端语音识别方法。以TeleSpeech-ASR1.0-large多方言预训练模型为基座,融合梅尔频率倒谱系数、滤波器组能量系数与对数梅尔谱3类互补声学特... 针对低资源临高方言语音识别中数据稀缺、字错误率高的问题,提出了一种基于多特征迁移学习的端到端语音识别方法。以TeleSpeech-ASR1.0-large多方言预训练模型为基座,融合梅尔频率倒谱系数、滤波器组能量系数与对数梅尔谱3类互补声学特征,通过构建Conformer-LAS-CTC联合优化架构,利用深度可分离卷积和多头自注意力机制分别捕捉语音信号的局部特征与全局依赖关系,并设计融合CTC、中间层CTC与注意力机制的多任务损失函数进行联合训练。在总时长为280 h的临高方言与普通话混合语料上的实验结果表明,所提方法的字错误率降低至18.89%,显著优于基线模型,有效缓解了低资源方言面临的数据瓶颈问题,为濒危语言的数字化保护提供了可行的技术路径。 展开更多
关键词 低资源语音识别 迁移学习 conformer 多特征融合 临高方言
在线阅读 下载PDF
基于语音信号时频特征融合的帕金森病检测方法 被引量:1
14
作者 王晨哲 季薇 +1 位作者 郑慧芬 李云 《郑州大学学报(理学版)》 CAS 北大核心 2025年第1期53-60,共8页
发音障碍是帕金森病的早期症状之一。近年来,基于语音信号的帕金森病检测的研究大多采用梅尔刻度下的相关语音特征与深度神经网络模型相结合的方法。然而,现有的模型无法充分关注语音信号的全局时序信息,且梅尔刻度特征在准确表征帕金... 发音障碍是帕金森病的早期症状之一。近年来,基于语音信号的帕金森病检测的研究大多采用梅尔刻度下的相关语音特征与深度神经网络模型相结合的方法。然而,现有的模型无法充分关注语音信号的全局时序信息,且梅尔刻度特征在准确表征帕金森病的病理信息方面效果有限。为此,提出了一种基于语音时频特征融合的帕金森病检测方法。首先,提取语音的梅尔频率倒谱系数,并将其作为模型的输入。接着,在已有的S-vectors模型中引入Conformer编码器模块,以提取语音的时域全局特征。最后,将与帕金森病语音检测相关的频域全局特征嵌入时域特征中进行时频信息融合,以实现帕金森病语音检测。在公开帕金森病语音数据集和自采语音数据集上验证了方法的有效性。 展开更多
关键词 帕金森病 梅尔频率倒谱系数 S-vectors conformer 时频特征融合
在线阅读 下载PDF
改进Transformer解码器的端到端语音识别 被引量:1
15
作者 胡恒博 牛铜 何振华 《计算机应用》 北大核心 2025年第S1期95-100,共6页
Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进... Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进的Transformer解码器。将Transformer解码器中的2种注意力机制拆分为2个单独模块,再使用交叉注意力进行更高效的局部特征捕获。在开源中文普通话AISHELL-1数据集上的实验结果表明,使用能够捕获局部特征的编码器时,该解码器相较于Transformer解码器有着更好的识别效果。具体地,当编码器为Conformer时,字错误率(CER)降低了16.19%,且收敛速度更快,而在使用了连接时序分类(CTC)进行辅助解码后,CER降低了5.08%,最终的CER为4.67%。 展开更多
关键词 交叉注意力 Transformer解码器 conformer编码器 语音识别 局部特征
在线阅读 下载PDF
结合字节级别字节对编码的端到端中文语音识别方法
16
作者 付强 徐振平 +1 位作者 盛文星 叶青 《计算机应用》 北大核心 2025年第1期318-324,共7页
针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并... 针对语音识别中对中文这种复杂字符集的语言词汇表过大以及训练效率太低的问题,提出一种基于字节级别字节对编码(BBPE)的端到端中文语音识别方法。首先,将256个不同的字节用于初始化词汇表;其次,统计每个词汇单元在语料中出现的频率,并合并频率最高的词汇单元;最后,重复上一步直至无法合并,以得到最终的词汇表。在中文语音数据集AISHELL-1上,该方法生成的词汇表相较于字符级别词汇表的词汇量减少了88.5%,降低了模型训练的复杂度。同时,鉴于Conformer-Transducer(Conformer-T)模型在端到端语音识别中的出色表现,为了实现更好的识别效果,将最新的Zipformer模型与Transducer模型相结合提出Zipformer-Transducer(Zipformer-T)模型,并在该模型上对BBPE方法进行验证。实验结果表明,Zipformer-T模型使用的BBPE方法相较于字符级别分词方法在AISHELL-1测试集和验证集上的字错率(CER)分别降低了0.12和0.08个百分点,且分别达到4.26%和3.98%的最低CER,充分说明该方法能有效提升中文语音识别的性能。 展开更多
关键词 语音识别 conformer Zipformer 字节级别字节对编码 端到端
在线阅读 下载PDF
基于多视角注意力的异构双分支解码单通道语音增强
17
作者 更藏措毛 黄鹤鸣 《计算机应用》 北大核心 2025年第10期3284-3293,共10页
针对单通道语音增强中主流编解码结构面临的声学特征提取不充分、通道信息丢失和幅度相位补偿困难等问题,提出一种融合不同维度语音特征的异构双分支解码单通道语音增强模型——HDBMV(Heterogeneous DualBranch with Multi-View)。该模... 针对单通道语音增强中主流编解码结构面临的声学特征提取不充分、通道信息丢失和幅度相位补偿困难等问题,提出一种融合不同维度语音特征的异构双分支解码单通道语音增强模型——HDBMV(Heterogeneous DualBranch with Multi-View)。该模型通过信息融合编码器(IFE)、时频残差Conformer(TFRC)模块、多视角注意力(MVA)模块和异构双分支解码器(HDBD)等机制,提升单通道语音增强的性能。首先,IFE联合处理振幅与复数特征,捕捉全局依赖和局部相关,生成紧凑的特征表示;其次,TFRC模块有效捕捉时间维度和频域维度上的相关性,同时降低计算复杂度;再次,MVA模块重构通道域和时频域信息,进一步增强模型对信息的多视角多层次的表征能力;最后,HDBD分别处理幅度特征和细化复数特征,解决幅度相位补偿问题,提升解码鲁棒性。实验结果表明,HDBMV在公开数据集VoiceBank+DEMAND、大数据集DNS Challenge 2020和自建的藏语数据集BodSpeDB上的语音质量感知评估(PESQ)分别达到了3.00、3.12和2.09,短时目标可理解度(STOI)分别达到了0.96、0.97和0.81。可见,HDBMV以最小的参数量和较高的计算效率获得了最佳的语音增强性能和较强的泛化能力。 展开更多
关键词 语音增强 编解码器 conformer 注意力机制 复数特征
在线阅读 下载PDF
ACGFN:基于非对称卷积和门控前馈神经网络的语音识别模型 被引量:1
18
作者 王詠森 刘倩 刘立波 《中文信息学报》 北大核心 2025年第1期167-174,共8页
针对现有基于Conformer语音识别模型对时频特征提取能力不足、模型结构冗余和参数量较大的问题,该文提出一个基于非对称卷积和门控前馈神经网络的语音识别模型ACGFN。首先,采用不同感受野大小的非对称卷积对语音序列的时频特征进行多尺... 针对现有基于Conformer语音识别模型对时频特征提取能力不足、模型结构冗余和参数量较大的问题,该文提出一个基于非对称卷积和门控前馈神经网络的语音识别模型ACGFN。首先,采用不同感受野大小的非对称卷积对语音序列的时频特征进行多尺度融合下采样,在增强模型提取时频特征的能力的同时,有效降低了下采样过程中信息的损失;其次,引入门控前馈模块替换Conformer中的双半步前馈网络,降低网络参数量的同时精简了模型结构。实验结果表明,该方法在公共数据集AISHELL-1和aidatatang_200zh的测试集上字错误率分别为4.48%、4.28%,且参数量仅40.3M。相较对比方法,识别字错误率和参数量均有所降低。 展开更多
关键词 语音识别 端到端 conformer
在线阅读 下载PDF
WTSTC:基于广域时频采样和时序感知卷积的语音识别模型
19
作者 刘立波 王詠森 +1 位作者 刘倩 邓箴 《中文信息学报》 北大核心 2025年第4期161-171,共11页
针对现有语音识别模型存在的时频特征感受野不足、时序特征损失及模型结构扩展性较差等方面的问题,该文提出基于广域时频采样和时序感知卷积的语音识别模型WTSTC,在保证模型轻量化的同时提升识别精度。首先,通过结合RepLKNet模块和传统... 针对现有语音识别模型存在的时频特征感受野不足、时序特征损失及模型结构扩展性较差等方面的问题,该文提出基于广域时频采样和时序感知卷积的语音识别模型WTSTC,在保证模型轻量化的同时提升识别精度。首先,通过结合RepLKNet模块和传统卷积下采样模块,构建了一种新型的广域时频采样模块,增大感受野的同时更加关注输入音频序列的时频特征;其次,设计了时序感知卷积模块,通过实现应用于时序特征的一维全局响应归一化层取代原有的Batch Norm以增强通道间的特征竞争,避免了归一化过程中语音信号的时序特征信息丢失的潜在可能;最后,在模型内部各模块间引入Droppath正则化方法,通过在模块间随机跳跃样本避免模型对特定模块的依赖。实验结果表明,该方法在中文公共数据集AISHELL-1的测试集上字错率为4.27%,在更大规模英文公共数据集Librispeech的测试集clean和other上的词错率分别为2.2%和5.1%。在保持相同训练策略的前提下,该方法相较现有先进模型展现出更优异的性能。 展开更多
关键词 自动语音识别 端到端 conformer RepLKNet
在线阅读 下载PDF
吉林大学杨雨欣论文被IEEE S&P 2026接收
20
《信息网络安全》 北大核心 2025年第10期1641-1641,共1页
吉林大学计算机科学与技术学院2022级博士研究生杨雨欣为第一作者的论文“Ensemble Conformal Predictor (En CP):A New Conformal Predictor with Robustness Guarantees Against Data Poisoning Attacks”被IEEE Symposium on Securit... 吉林大学计算机科学与技术学院2022级博士研究生杨雨欣为第一作者的论文“Ensemble Conformal Predictor (En CP):A New Conformal Predictor with Robustness Guarantees Against Data Poisoning Attacks”被IEEE Symposium on Security and Privacy (IEEE S&P 2026)接收。作者还包括杨雨欣的指导教师教授李强、吉林大学人工智能学院博士研究生封润洋,共同通信作者是美国丰田工业大学芝加哥分校教授Liren Shan和美国伊利诺伊理工大学教授Binghui Wang。 展开更多
关键词 En CP Ensemble Conformal Predictor
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部