期刊文献+
共找到8,744篇文章
< 1 2 250 >
每页显示 20 50 100
基于EfficientNetV2-RetNet的端到端中文管制语音识别 被引量:1
1
作者 梁海军 常瀚文 +2 位作者 何一民 赵志伟 孔建国 《电讯技术》 北大核心 2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获... 自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。 展开更多
关键词 空中交通管制 自动语音识别 端到端深度学习 迁移学习
在线阅读 下载PDF
农用车辆导航系统语音控制功能的实现——基于汉语言声学特征 被引量:1
2
作者 鲁和英 《农机化研究》 北大核心 2025年第4期264-268,共5页
随着先进技术的应用,农用车辆在农业生产中发挥着重要作用。为此,将汉语言声学特征的语音控制应用在农用车辆导航系统中,通过集成讯飞语音云实现安静和嘈杂两种环境下对导航系统的实时控制。实验结果表明:语音识别正确率很高,平均达到了... 随着先进技术的应用,农用车辆在农业生产中发挥着重要作用。为此,将汉语言声学特征的语音控制应用在农用车辆导航系统中,通过集成讯飞语音云实现安静和嘈杂两种环境下对导航系统的实时控制。实验结果表明:语音识别正确率很高,平均达到了93.17%,具有较高的实用价值和推广价值。 展开更多
关键词 农用车辆 导航 汉语言声学特征 语音控制 人工智能
在线阅读 下载PDF
复杂噪声环境下服务机器人语音增强算法研究 被引量:1
3
作者 李世其 周雨玫 +1 位作者 郑旋烨 刘裔斌 《传感器与微系统》 北大核心 2025年第4期35-39,共5页
针对服务机器人使用场景中存在复杂噪声而降低语音识别准确率的问题,提出了一种服务机器人语音增强算法。该算法利用深度神经网络(DNN)学习带噪语音和干净语音之间的关系,并将其作为映射函数从带噪语音中恢复出增强后的语音。在噪声感... 针对服务机器人使用场景中存在复杂噪声而降低语音识别准确率的问题,提出了一种服务机器人语音增强算法。该算法利用深度神经网络(DNN)学习带噪语音和干净语音之间的关系,并将其作为映射函数从带噪语音中恢复出增强后的语音。在噪声感知训练中,使用基于长短时记忆(LSTM)网络的语音活动检测准确估计非语音帧,帮助DNN更好地区分语音与噪声。最后搭建服务机器人语音交互平台,在复杂噪声环境下对机器人进行语音控制实验来验证系统有效性。实验结果表明,所提出的语音增强算法可有效提高服务机器人在复杂噪声环境下语音识别的准确率,提升控制效果。 展开更多
关键词 语音增强 服务机器人 深度神经网络
在线阅读 下载PDF
基于多种机器学习算法和语音情绪特征的阈下抑郁辨识模型构建
4
作者 陈梅妹 王洋 +3 位作者 雷黄伟 张斐 黄睿娜 杨朝阳 《南方医科大学学报》 北大核心 2025年第4期711-717,共7页
目的分析阈下抑郁组和正常组的语音情绪特征,并通过6种机器学习算法构建语音识别分类模型,为阈下抑郁辨识提供客观化依据,以提高早期诊断率。方法采集正常组和阈下抑郁组的朗读单词和文本的不同语音数据,每个语音段提取384维语音情绪特... 目的分析阈下抑郁组和正常组的语音情绪特征,并通过6种机器学习算法构建语音识别分类模型,为阈下抑郁辨识提供客观化依据,以提高早期诊断率。方法采集正常组和阈下抑郁组的朗读单词和文本的不同语音数据,每个语音段提取384维语音情绪特征变量,包括能量特征、梅尔频率倒谱系数、零交叉率特征、声音概率特征、基频特征、差分特征等多个维度。采用递归特征消除方法筛选语音特征变量,然后利用自适应增强算法(AdaBoost)、随机森林(RF)、线性判别分析(LDA)、逻辑回归、Lasso回归和支持向量机机器学习算法构建分类模型,并评估模型的性能。为评估模型泛化能力,采用真实世界的语音数据,对最佳阈下抑郁语音识别分类模型进行测试。结果AdaBoost、RF和LDA模型在单词朗读语音测试集上预测准确率为100%、100%和93.3%,展现出高准确率和稳定性;在单词文本语音测试集上,AdaBoost、RF和LDA模型的预测准确率为90%、80%和90%,其余3个算法模型的准确率均小于80%。阈下抑郁语音AdaBoost和RF分类模型对真实世界的朗读单词和文本语音数据的预测准确率仍然可以达到了91.7%和80.6%,86.1%和77.8%。结论通过分析语音情绪特征可以有效地识别阈下抑郁个体,AdaBoost和RF模型在阈下抑郁个体分类方面表现出色,是识别阈下抑郁的有力工具,可以为临床应用和研究提供参考。 展开更多
关键词 阈下抑郁识别 语音情绪特征 机器学习 自适应增强算法 随机森林
在线阅读 下载PDF
汽车个性化语音助手设计对驾驶绩效的影响研究
5
作者 杨菁 许迅 卫文韬 《包装工程》 北大核心 2025年第14期106-112,共7页
目的为了提高驾驶员的驾驶安全行为,研究对汽车语音助手的设计进行了探究。方法基于情感化设计理论将三种辅助性人格(朋友型、家人型、领导型)语音加入到汽车语音助手中,通过汽车驾驶模拟器采集了三组共30名被试在不同情绪(快乐、愤怒)... 目的为了提高驾驶员的驾驶安全行为,研究对汽车语音助手的设计进行了探究。方法基于情感化设计理论将三种辅助性人格(朋友型、家人型、领导型)语音加入到汽车语音助手中,通过汽车驾驶模拟器采集了三组共30名被试在不同情绪(快乐、愤怒)下的驾驶绩效、眼动与问卷数据。结果不同个性化语音助手对驾驶员在愤怒情绪下的驾驶绩效存在显著差异;家人型语音助手在愤怒组下的车道偏离数据最小,驾驶绩效最高;朋友型语音助手在快乐情绪下的车道偏离数据最小,注视次数最多且满意度较高;领导型语音助手在不同情绪下的驾驶绩效最差且满意度较低。在驾驶过程中,家人型语音助手可以降低驾驶过程中的不良情绪。结论本研究对汽车语音助手的个性化设计提供了建议,为减少驾驶员的易怒情绪及有效提高驾驶安全提供了科学依据。 展开更多
关键词 情感化设计 语音助手 驾驶绩效 情绪 驾驶安全
在线阅读 下载PDF
复频域注意力和多尺度频域增强驱动的语音增强网络
6
作者 吕景刚 彭绍睿 +1 位作者 高硕 周金 《计算机应用》 北大核心 2025年第9期2957-2965,共9页
现有语音增强方法的目标信号为复频谱信号,而训练网络通常采用实值网络,训练时分别并行处理实部和虚部信号降低了特征提取的准确度,并且对复频域的语义特征提取不充分。为解决上述问题,提出一种基于复频域注意力和多尺度频域增强(CFAFE... 现有语音增强方法的目标信号为复频谱信号,而训练网络通常采用实值网络,训练时分别并行处理实部和虚部信号降低了特征提取的准确度,并且对复频域的语义特征提取不充分。为解决上述问题,提出一种基于复频域注意力和多尺度频域增强(CFAFE)的复数域网络实现语音增强。该网络以U-Net为基本架构,首先,利用短时傅里叶变换(STFT)将语音时序含噪信号转换到复频域;其次,针对复频域特征,设计复数域多尺度频域增强模块,构建复频域条件下增强的含噪语音局部特征挖掘模块,从而增强频域干扰和识别期望信号特征的能力;再次,在ViT(Vision Transformer)的基础上设计基于复频域的自注意力算法,实现并行复频域特征的增强;最后,在基准数据集VoiceBank+Demand上进行对比实验和消融实验,并在使用Noise92加噪后的Timit数据集上进行迁移泛化实验。实验结果表明,在VoiceBank+Demand数据集上,相较于深度复卷积递归网络(DCCRN),所提网络在语音质量的感知评估(PESQ)、MOS信号失真(CSIG)、MOS噪声失真(CBAK)、MOS整体语音质量(COVL)指标上分别提升了16.6%、10.9%、44.4%和14.1%;在Timit+Noise92数据集上,相较于DCCRN模型,在babble噪声信噪比(SNR)为-5 dB的条件下,所提网络的PESQ和STOI(Short-Time Objective Intelligibility)分别提高了29.8%和5.2%。 展开更多
关键词 语音增强 复神经网络 U-Net 注意力机制 TRANSFORMER
在线阅读 下载PDF
基于SE注意力机制与互信息量的解纠缠跨语种语音转换
7
作者 李燕萍 谭誌诚 +2 位作者 胡澄阳 杨露露 邵曦 《信号处理》 北大核心 2025年第1期183-192,共10页
在跨语种语音转换(Cross-Lingual Voice Conversion, CLVC)任务中,如何保留转换语音中的内容信息,同时有效地提高转换语音的相似度和自然度是目前的研究难题。传统的编码器-解码器模型应用于跨语种语音转换时,通常会对语音进行相互独立... 在跨语种语音转换(Cross-Lingual Voice Conversion, CLVC)任务中,如何保留转换语音中的内容信息,同时有效地提高转换语音的相似度和自然度是目前的研究难题。传统的编码器-解码器模型应用于跨语种语音转换时,通常会对语音进行相互独立的内容编码和说话人编码,导致得到的内容表征和说话人表征之间存在一定的信息泄露,从而使得转换语音的说话人个性相似度不够理想。为了解决上述存在的问题,本文提出一种基于SE注意力机制(Squeeze-and-Excitation Attention Mechanism, SE)与互信息量(Mutual Information, MI)的跨语种语音转换方法,实现有效的表征解纠缠,完成开集情形下高质量的跨语种语音转换。首先,在内容编码器中引入SE注意力机制以利用其对全局信息的提取能力,使得内容编码器可以提取包含全局上下文信息的内容表征;同时,在各个表征之间引入互信息量,并通过对其最小化来大幅减少各个表征之间存在的信息泄露问题,从而实现有效的表征解纠缠。在VCTK英文语料库和AISHELL-3中文语料库上的实验结果表明,本文提出的基于SE注意力机制与互信息量的跨语种语音转换模型(Squeeze-and-Excitation Attention Mechanism and Mutual Information, SEMI)具有更强的表征提取能力,相比于基准模型,其在客观评价中MCD值降低了10.89%,在主观评价中MOS值和ABX值分别提升了10.94%和12.06%,验证了SEMI模型在转换语音质量和说话人个性相似度方面都取得显著进展,实现了开集情形下高质量的跨语种语音转换。 展开更多
关键词 跨语种语音转换 SE注意力机制 互信息量 全局上下文信息
在线阅读 下载PDF
基于深度学习的语音增强方法综述
8
作者 王华朋 冯嘉琪 《科学技术与工程》 北大核心 2025年第20期8331-8346,共16页
随着深度学习技术的兴起,基于深度学习的语音增强方法日益广泛应用,性能普遍优于传统方法。概述语音增强中降噪信号处理的基本框架,逐步分析深度学习驱动的语音增强模型的最新进展。对基于深度学习的语音增强算法进行全面整理,详细介绍... 随着深度学习技术的兴起,基于深度学习的语音增强方法日益广泛应用,性能普遍优于传统方法。概述语音增强中降噪信号处理的基本框架,逐步分析深度学习驱动的语音增强模型的最新进展。对基于深度学习的语音增强算法进行全面整理,详细介绍不同神经网络的语音增强方法的原理、特点、评价指标及代表性研究,综合评估这些方法的优势与不足。最后,结合当前发展状况,分析语音增强过程中面临的核心挑战,并对未来发展路径进行讨论与预测。 展开更多
关键词 语音增强 深度学习 语音降噪 神经网络
在线阅读 下载PDF
制造交流:智能音箱语音对话的互动机制研究
9
作者 庞亮 易茜 《现代传播(中国传媒大学学报)》 北大核心 2025年第7期114-127,共14页
以智能音箱为代表的语音交流型人工智能,通过自然语言的识别、处理与合成的方式,实现人机对话,使机器从中介变为交流主体。从用户与智能音箱的语音对话文本和行为交互层面看,人机交流中存在着众多的阻碍因素和重构行为,这些要素生成智... 以智能音箱为代表的语音交流型人工智能,通过自然语言的识别、处理与合成的方式,实现人机对话,使机器从中介变为交流主体。从用户与智能音箱的语音对话文本和行为交互层面看,人机交流中存在着众多的阻碍因素和重构行为,这些要素生成智能音箱语音对话互动模型。基于模型的传输路径,从话语表征、交往行动和行为实践维度,智能音箱存在记忆经验缺失的话语、被动重复的机械行动,以及“请求-响应”单向刺激的程序结构。因此,人机跨物种交流的实质是一种具有功利导向的类人际传播的沟通。人机交流是可能的,但这种展演式的交流尚不属于真正意义上的交流。 展开更多
关键词 语音交流型人工智能 人机交流 对话关系 语音交互
在线阅读 下载PDF
面向低数据资源的语音识别研究综述
10
作者 许春冬 吴子煜 葛凤培 《计算机工程与应用》 北大核心 2025年第4期59-71,共13页
近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等... 近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等因素给数据的收集造成困难。同时,语音数据的标注需要大量专业人员的参与,导致标注成本很高。因此,语音识别在实际应用中经常面临数据资源不足的问题。在这种低数据资源条件下构建性能优异且稳定的语音识别系统仍是研究难点。简单归纳了语音识别的发展历程,总结了语音识别的基本框架以及常见的国内外开源数据集。围绕低数据资源问题,详细分析了低数据资源的判定方法,继而梳理了四类技术方案,包括数据增强、联邦学习、自监督学习以及元学习,并对它们的性能状况以及优缺点进行了系统的剖析。最后讨论了该研究方向未来潜在的发展趋势和可能面临的问题。 展开更多
关键词 语音识别 低数据资源 数据增强 联邦学习 自监督学习 元学习
在线阅读 下载PDF
低信噪比下多级特征深度融合的视听语音增强
11
作者 张天骐 沈夕文 +1 位作者 唐娟 谭霜 《通信学报》 北大核心 2025年第5期133-144,共12页
为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU)... 为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU);在每层的视觉和听觉编码网络间设计一种视听注意力融合模块(AVAFM);在视听融合网络中设计一种融合加权模块(FWB),将每级输出进行特征优化、动态加权得到更具判别性的特征。最终在TMSV、LGRID视听数据集上的多种低信噪比的实验结果表明,LGRID视听数据集下的平均PESQ、STOI分别提升52.30%~74.06%、46.74%~67.15%,且相比纯音频语音增强,在-5dB、-2dB、1dB低信噪比下的平均PESQ和STOI分别提升38.95%和33.92%,表现出所提网络的高降噪性能和添加视觉信息的有效性。 展开更多
关键词 视听语音增强 低信噪比 多级特征融合 融合加权 视听注意力
在线阅读 下载PDF
基于门控扩张循环卷积神经网络的语音增强
12
作者 郭业才 周雪 《计算机工程与设计》 北大核心 2025年第6期1818-1824,共7页
为解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即融合精确比值掩蔽的门控扩张循环卷积神经网络(gate-dilated recurrent convolutional neural network with accurate ratio masking, GDRCNN-ARM)。GDRCN... 为解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即融合精确比值掩蔽的门控扩张循环卷积神经网络(gate-dilated recurrent convolutional neural network with accurate ratio masking, GDRCNN-ARM)。GDRCNN由编码器、循环卷积层和解码器3部分组成,编码器中借助扩张卷积和门控机制实现对上下文语音信息的捕获,进行并行处理;循环卷积层采用GRU且引入多头注意力机制,捕捉网络中的长期依赖关系;解码器采用逐层解码且通过跳跃连接进行编码器信息的复用,实现对语音细节的还原。实验数据表明,GDRCNN网络在参数量和模型大小方面明显优于DNN、CRN等网络,PESQ平均提高了0.612、0.158,STOI平均提高了0.072、0.020,在语音增强和泛化方面表现出色。 展开更多
关键词 语音增强 深度学习 精确比值掩蔽 扩张卷积 门控机制 循环卷积 并行处理
在线阅读 下载PDF
基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离
13
作者 王春丽 刘素倩 陈善立 《信号处理》 北大核心 2025年第4期718-729,共12页
针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合... 针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合现实中复杂的背景环境需求。为使模型可以在现实应用复杂条件下灵活应对混合语音信号中的多变性与非平稳性,采用多尺度可变形注意力机制与Transformer编码器构成(Transformer Encoder Multi-Scale deformable attention,TEMDA)模块,利用多尺度可变形注意力机制的偏移层在不同位置上进行动态计算,扩展模型的感受野,同时使模型更有效地聚焦于重要的时间点,减少噪声和混响的影响。为了更好地获取上下文信息,在多路径融合策略中,通过在双路径模块的基础上增加通道间的Conformer组成三路径模块,用于提取多说话人之间的特征信息,这样的处理方式可以更好地融合单一说话人和多说话人之间的信息,提升语音分离性能。实验表明,所提出的模型分别在纯净和带噪声的Libri2Mix、Libri3Mix数据集上达到了显著的分离效果,并且在LRS2-2Mix数据集中模型可以更好地减少噪声和混响对语音分离的影响,尺度不变信噪比改善(Scale-Invariant Signal-to-Noise Ratio Improvement,SI-SNRi)和信号失真比改善(Signal-to-Distortion Ratio Improvement,SDRi)分别为14.7 dB和15.1 dB;在三个说话人数目中的估计精度为98.89%,提升了0.12%。 展开更多
关键词 未知说话人语音分离 多尺度可变形注意力编码策略 多路径融合 吸引子估计
在线阅读 下载PDF
英文语音识别的无人机监测水稻生产的应用研究
14
作者 马亚鸿 《北方水稻》 2025年第4期182-184,共3页
基于英文语音识别的无人机监测水稻生产系统通过集成先进的图像识别算法、数据融合技术与智能分析,能够实现水稻田的自动化监测与精准管理。该系统通过高效的飞行路径规划和数据采集点设置,确保对水稻生长状态、病虫害问题的全面监控。... 基于英文语音识别的无人机监测水稻生产系统通过集成先进的图像识别算法、数据融合技术与智能分析,能够实现水稻田的自动化监测与精准管理。该系统通过高效的飞行路径规划和数据采集点设置,确保对水稻生长状态、病虫害问题的全面监控。语音指令的集成让操作员可以通过语音指令实时调整任务执行情况,提升操作的灵活性与效率;图像识别技术结合多源传感器数据,能够精准识别作物健康问题,并为农业生产提供数据支持和决策依据。通过不断优化算法与数据处理方法,该系统将在农业智能化管理中发挥重要作用。 展开更多
关键词 英文语音识别 无人机监测 水稻
在线阅读 下载PDF
基于改进高效通道注意力机制的多特征语音情感识别 被引量:1
15
作者 杜晨阳 张雪英 +1 位作者 黄丽霞 李娟 《计算机工程》 北大核心 2025年第4期97-106,共10页
注意力机制已经广泛地用于语音情感识别(SER)领域,但是传统注意力模块在提升模型性能表现的同时也会大幅增加模型的参数量。高效通道注意力(ECA)机制虽然参数量较小,但是只能对通道维度生成注意力权重。针对这个问题,提出一种改进ECA(IE... 注意力机制已经广泛地用于语音情感识别(SER)领域,但是传统注意力模块在提升模型性能表现的同时也会大幅增加模型的参数量。高效通道注意力(ECA)机制虽然参数量较小,但是只能对通道维度生成注意力权重。针对这个问题,提出一种改进ECA(IECA)模块,该模块以较小的参数量对输入的特征图的各个维度生成对应的权重,使得模型更关注和利用特征图中的重要信息。此外,为了进一步提升识别率,分别提取语音的语谱图特征和IS10特征,通过融合网络对不同支路的预测结果进行决策融合,得到最终的预测结果。所提出的模型在EMODB和CASIA两个语音情感数据集上分别取得了91.63%、92.46%的加权准确率(WA)和91.25%、92.33%的未加权平均召回率(UAR),相较之前的研究结果分别有2.69~8.43和4.16~10.69百分点的提升。 展开更多
关键词 深度学习 语音情感识别 注意力机制 多特征融合 决策级融合
在线阅读 下载PDF
基于S型微纳光纤的声带振动传感器及语音智能识别研究 被引量:1
16
作者 王智君 黄嵊釉 +5 位作者 李昆 杨杨 陈复旦 罗彬彬 吴德操 邹雪 《光子学报》 北大核心 2025年第5期21-32,共12页
使用聚二甲基硅氧烷作为传感器衬底嵌入直径为4μm,弯曲半径为1 mm的S型微纳光纤,研制了一种可穿戴的声带语音识别柔性传感器。该传感器通过人体发声时声带产生振动引起传感器的光强度变化将其转变为电信号的变化从而可以实现声带振动... 使用聚二甲基硅氧烷作为传感器衬底嵌入直径为4μm,弯曲半径为1 mm的S型微纳光纤,研制了一种可穿戴的声带语音识别柔性传感器。该传感器通过人体发声时声带产生振动引起传感器的光强度变化将其转变为电信号的变化从而可以实现声带振动信号的识别。利用目标检测算法模型对26个英文字母的识别率为96.8%,对日常词汇的识别率为97.75%,凸显了传感器在语音识别方面的普适性。该传感器具有制作简便,快速振动响应(222 ms)、可重复性且稳定性好等特点,在医疗领域和健康监测中具有潜在的应用价值。 展开更多
关键词 微纳光纤 声带振动 语音识别 目标检测算法 可穿戴传感器
在线阅读 下载PDF
基于记忆胶囊与注意力的语音情感识别 被引量:1
17
作者 董红亮 钮焱 +1 位作者 孙杨 李军 《计算机工程》 北大核心 2025年第4期169-177,共9页
当前语音情感识别中因情感特征提取不充分和模型对复杂情感表达建模能力不足,导致识别准确率降低。为了提高当前语音情感识别准确率,提出一种基于记忆胶囊和注意力的语音情感识别方法。首先,提取了语音中梅尔频率倒谱系数(MFCC)、能量... 当前语音情感识别中因情感特征提取不充分和模型对复杂情感表达建模能力不足,导致识别准确率降低。为了提高当前语音情感识别准确率,提出一种基于记忆胶囊和注意力的语音情感识别方法。首先,提取了语音中梅尔频率倒谱系数(MFCC)、能量的均方根(RMS)、梅尔语谱图、过零率(ZCR)、色度分布5种特征;然后,在MFCC特征的基础上,提取MFCC的一阶、二阶和三阶差分动态特征,并将其拼接;最后,将这些特征堆叠成一维向量的形式,通过引入记忆胶囊和注意力机制所构建的模型,完成对语音情感识别分类工作。实验结果表明,所提的模型具有较好的泛化性和鲁棒性,有效提升了语音情感识别的准确率,在RAVDESS、EMODB和IEMOCAP 3个数据集上的准确率分别达到了95.87%、98.82%和98.23%,与现有的方法相比,识别准确率均得到了有效提升。 展开更多
关键词 语音情感识别 特征提取 特征堆叠 记忆胶囊网络 注意力机制
在线阅读 下载PDF
基于多模态视听融合的Transformer语音识别算法研究 被引量:2
18
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 TRANSFORMER 动态权重分配机制
在线阅读 下载PDF
融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法 被引量:1
19
作者 鲁超峰 陶冶 +4 位作者 文连庆 孟菲 秦修功 杜永杰 田云龙 《计算机应用》 北大核心 2025年第3期815-822,共8页
针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先... 针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。 展开更多
关键词 少量语料 说话人-情感语音转换 大语言模型 预训练情感语音合成模型 微调
在线阅读 下载PDF
基于图注意力机制和对抗训练的语音反欺骗方法 被引量:1
20
作者 陆华庆 葛子瑞 +2 位作者 王天朗 郭海燕 杨震 《信号处理》 北大核心 2025年第1期161-173,共13页
语音反欺骗任务旨在通过设计网络结构和学习算法来区分真实语音和欺骗语音,以提升语音系统安全性。本文提出了一种结合图注意力机制和对抗训练的语音反欺骗方法,以应对语音反欺骗任务中的挑战。具体地,基于说话人吸引子多中心单类(speak... 语音反欺骗任务旨在通过设计网络结构和学习算法来区分真实语音和欺骗语音,以提升语音系统安全性。本文提出了一种结合图注意力机制和对抗训练的语音反欺骗方法,以应对语音反欺骗任务中的挑战。具体地,基于说话人吸引子多中心单类(speaker attractor multi-center one-class, SAMO)学习算法,利用图信号处理(graph signal processing, GSP)理论,本文提出了采用图注意力网络(graph attention network, GAT)提取说话人吸引子中心的方法。通过引入注意力机制来聚合说话人特征表示,以计算出更具代表性的说话人吸引子中心,从而提高系统对真实语音和欺骗语音的区分能力。另外,考虑到当网络只学习到训练集中已知欺骗类型的特定欺骗伪影时,则分类网络可能无法有效应对未知类型的欺骗攻击。本文在反欺骗网络结构中引入欺骗类型分类对抗网络,通过特征表示学习模块和欺骗类型分类辅助网络的对抗训练,促使网络能够从不同类型的欺骗语音中学习到共同的欺骗伪影特征,从而提升系统对实际测试中未知类型欺骗语音的检测能力。在ASVspoof 2019 LA、CFAD和ASVspoof 2021 LA数据集上进行了实验,实验结果表明所提方法在性能上优于基线系统和其他对比系统。此外,本文还采用了t分布随机邻居嵌入(t-distributed stochastic neighbor embedding, t-SNE)和相似度矩阵热力图的可视化方法,直观展示了所提方法在准确区分真实语音和欺骗语音方面的优势,并验证了对抗训练技术在学习共同欺骗伪影特征方面的有效性。 展开更多
关键词 语音反欺骗 图注意力机制 单分类 对抗训练 多任务学习
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部