期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
言语在筛查老年人认知功能下降中的应用
1
作者 王思文 殷潇潇 +4 位作者 高琳琳 贵文君 胡巧霞 楼琼 王钦文 《生物化学与生物物理进展》 北大核心 2025年第2期456-463,共8页
阿尔茨海默病是一种严重影响老年人健康的慢性神经系统退行性疾病,其前期就可以检测到言语变化。基于计算机分析言语的方法在筛查认知功能下降方面正确率超过80%。这种方法通过分析被试在自发言语、语义流畅性以及阅读等任务中的言语表... 阿尔茨海默病是一种严重影响老年人健康的慢性神经系统退行性疾病,其前期就可以检测到言语变化。基于计算机分析言语的方法在筛查认知功能下降方面正确率超过80%。这种方法通过分析被试在自发言语、语义流畅性以及阅读等任务中的言语表现,以一种非侵入性、易于操作且具有高度特异性的方式,为认知功能下降的早期诊断提供了一种创新的解决方案。本文总结言语数据获取方式和认知功能下降患者的言语特点,在此基础上讨论基于计算机技术进行早期筛查的研究进展。 展开更多
关键词 阿尔茨海默病 认知功能障碍 早期筛查 言语识别
在线阅读 下载PDF
多任务学习型民航陆空通话语音识别Conformer模型
2
作者 马广林 任晋 +3 位作者 师一华 张海刚 王莉 杨金锋 《计算机应用与软件》 北大核心 2025年第10期183-190,244,共9页
民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引... 民航陆空通话在用语发音、遣词造句和通话方式等方面具有显著行业特点,通用语音识别模型无法充分适配上述特点对陆空通话进行声学建模。针对上述问题,提出一种端到端的多任务学习型民航陆空通话语音识别Conformer模型。通过将卷积模块引入Transformer模型,Conformer模型在保留上下文长距离依赖关系的全局信息建模能力基础上,进一步增强了局部信息的捕获。同时联合连接时序分类(Connectionist Temporal Classification,CTC)和基于注意力的编码解码模型进行多任务学习以进一步提升其性能。实验结果表明,该方法能有效兼顾全局和局部信息的声学建模,在陆空通话数据集上将字符错误率和句错误率分别降低至1.98%和2.89%。 展开更多
关键词 民航陆空通话 语音识别 多任务学习 CONFORMER 端到端
在线阅读 下载PDF
端到端语音翻译中辅助数据的使用策略研究
3
作者 刘晓倩 韩宇晨 +7 位作者 朱靖波 许晨 张裕浩 杜扬帆 赫洱锋 马安香 张春良 肖桐 《中文信息学报》 北大核心 2025年第5期60-71,共12页
端到端语音翻译模型由于数据稀缺问题很难直接进行有效训练。为此,已有方法基于利用辅助数据进行改进的思路,采取了多种不同的策略,但如何将这些策略有机地结合起来仍是一个难题。该文基于编码分解的统一建模架构,实现了对数据增强、预... 端到端语音翻译模型由于数据稀缺问题很难直接进行有效训练。为此,已有方法基于利用辅助数据进行改进的思路,采取了多种不同的策略,但如何将这些策略有机地结合起来仍是一个难题。该文基于编码分解的统一建模架构,实现了对数据增强、预训练和多任务学习三个关键技术的有效联合。在MuST-C英-中语音翻译数据集上的实验结果表明,数据增强在三种方法中具有最大的潜力,能够显著提升语音翻译模型的性能(5.18 BLEU),并通过联合预训练技术实现了在单个模型上最大程度的性能提升(5.48 BLEU),使模型获得更好的泛化性。尽管进一步结合多任务学习无法带来正向效果,但通过对多种模型进行集成仍可获得5.61 BLEU提升。 展开更多
关键词 语音翻译 预训练 数据增强 多任务学习
在线阅读 下载PDF
面向儿童的多通道交互系统 被引量:15
4
作者 李杰 田丰 +1 位作者 王维信 戴国忠 《软件学报》 EI CSCD 北大核心 2002年第9期1846-1851,共6页
设计和实现了一个基于笔和语音的面向儿童的多通道三维交互系统.系统中包含了基于笔和语音的交互信息整合框架,用来整合儿童输入的笔和语音信息.同时,系统中定义了一些基于笔和语音的交互技术,可以支持孩子们以自然的方式,通过笔和语音... 设计和实现了一个基于笔和语音的面向儿童的多通道三维交互系统.系统中包含了基于笔和语音的交互信息整合框架,用来整合儿童输入的笔和语音信息.同时,系统中定义了一些基于笔和语音的交互技术,可以支持孩子们以自然的方式,通过笔和语音同系统进行交互.用笔来勾画三维的场景和小动物等实体,同时用笔和语音同场景和场景中的实体进行一定的交互. 展开更多
关键词 多通道交互系统 儿童 语音检测 手势 交互原语 交互任务 语音识别 信息处理
在线阅读 下载PDF
说话人特征约束的多任务卷积网络语音增强 被引量:3
5
作者 龙华 张林濮 +1 位作者 邵玉斌 杜庆治 《小型微型计算机系统》 CSCD 北大核心 2021年第10期2178-2183,共6页
针对噪声干扰环境下的说话人识别问题,提出了一种基于多任务学习的语音增强方法作为说话人识别系统的前端.在卷积神经网络(CNN)的基础上,通过构建语音增强与说话人识别的融合网络多任务学习模型,同时在输入输出端拼接梅尔频谱倒谱系数(M... 针对噪声干扰环境下的说话人识别问题,提出了一种基于多任务学习的语音增强方法作为说话人识别系统的前端.在卷积神经网络(CNN)的基础上,通过构建语音增强与说话人识别的融合网络多任务学习模型,同时在输入输出端拼接梅尔频谱倒谱系数(MFCC)和基音周期特征作为辅助任务,以及利用同方差不确定性自适应调整损失权重.实验结果表明,相比只输入对数功率谱(LPS)的CNN以及DNN模型,加入辅助任务的CNN模型可以提高语音增强的表现.另外,语音增强与说话人识别任务的联合训练可以增强噪声干扰下的说话人识别效果,提高模型的鲁棒性. 展开更多
关键词 语音增强 多任务学习 说话人识别 卷积神经网络
在线阅读 下载PDF
基于模型过滤的多任务回归在帕金森症预测中的应用 被引量:2
6
作者 刘峰 季薇 李云 《计算机应用》 CSCD 北大核心 2018年第11期3221-3224,3230,共5页
传统基于语音的帕金森症(PD)病情预测方法则是分别预测运动症状评分(motor-UPDRS)和总体症状评分(total-UPDRS)。为解决在单任务预测过程中,传统方法无法利用任务之间的共享信息和预测性能不佳的问题,提出了一种基于模型过滤的多任务回... 传统基于语音的帕金森症(PD)病情预测方法则是分别预测运动症状评分(motor-UPDRS)和总体症状评分(total-UPDRS)。为解决在单任务预测过程中,传统方法无法利用任务之间的共享信息和预测性能不佳的问题,提出了一种基于模型过滤的多任务回归方法来预测帕金森症患者的motor-UPDRS和total-UPDRS。首先,考虑到子任务语音特征对预测motor-UPDRS和total-UPDRS不同的影响,添加L1正则化项进行特征选择;其次,在构建模型的同时,根据不同帕金森患者对象分布在不同的域,添加了过滤机制,来提高预测精度。在远程帕金森数据集仿真实验中,基于模型过滤的多任务回归方法在预测UPDRS时,较单任务条件下最小二乘法(LS)模型预测motor值准确度提高了67.2%,预测total值则提高了83.3%;相比单任务条件下决策回归树(CART)模型预测motor值提高了64%,预测total值则提高了78.4%。实验结果表明,基于模型过滤的多任务回归算法对UPDRS预测要优于单任务回归算法。 展开更多
关键词 帕金森症 语音 多任务回归 模型过滤 特征选择 统一帕金森评定量表
在线阅读 下载PDF
基于多任务稀疏表达的二元麦克风小阵列话音增强算法 被引量:3
7
作者 杨立春 叶敏超 钱沄涛 《通信学报》 EI CSCD 北大核心 2014年第2期87-94,共8页
针对常规二元麦克风小阵列话音增强算法通常需要话音活动检测技术支持,并且难以有效抑制第一帧含目标信号的噪声。提出了一种基于多任务稀疏表达的二元麦克风小阵列话音增强算法,首先利用字典学习方法分别获得目标信号和噪声信号的过完... 针对常规二元麦克风小阵列话音增强算法通常需要话音活动检测技术支持,并且难以有效抑制第一帧含目标信号的噪声。提出了一种基于多任务稀疏表达的二元麦克风小阵列话音增强算法,首先利用字典学习方法分别获得目标信号和噪声信号的过完备字典,然后利用2 1???混合范数对信号在其字典上的表示系数进行正则化稀疏约束,使得2个阵元接收到信号中的噪声信号被抑制,而话音信号尽量保持不变,从而达到话音增强的目标。仿真和实验数据表明,无论开始位置是否含有目标话音信号,所提出的非话音活动检测支持的二元麦克风小阵列话音增强算法均能有效实现话音增强的目标。 展开更多
关键词 麦克风小阵列 话音增强 字典学习 多任务稀疏表达
在线阅读 下载PDF
汉语图画命名过程的年老化机制:非选择性抑制能力的影响 被引量:3
8
作者 杨群 张清芳 《心理学报》 CSSCI CSCD 北大核心 2019年第10期1079-1090,共12页
采用图画-词汇干扰任务考察和比较了青年人和老年人在汉语口语词汇产生中的干扰词频效应,以及非选择性抑制能力对两组人群干扰词频效应和图画命名潜伏期的影响。结果发现:无关干扰词的词频影响了青年人的图画命名过程,出现了干扰词频效... 采用图画-词汇干扰任务考察和比较了青年人和老年人在汉语口语词汇产生中的干扰词频效应,以及非选择性抑制能力对两组人群干扰词频效应和图画命名潜伏期的影响。结果发现:无关干扰词的词频影响了青年人的图画命名过程,出现了干扰词频效应,这一效应更可能发生在反应排除阶段,且不受非选择性抑制能力的影响;相比而言,老年人中未出现干扰词频效应,这可能是由于老年人的音韵表征衰退导致其不能利用干扰词的词频信息,支持了口语产生认知年老化的传输不足假设。非选择性抑制能力影响了老年人的图画-词汇干扰任务中图画命名的潜伏期,非选择性抑制能力减弱,图画命名时间延长,表明一般性认知能力的衰退影响了语言产生过程。 展开更多
关键词 口语产生年老化 图画-词汇干扰任务 干扰词频效应 词频效应 非选择性抑制能力
在线阅读 下载PDF
自我聚焦对社交焦虑个体外部注意与状态焦虑的作用——来自眼动与生理指标的证据 被引量:5
9
作者 陈慧菁 林沐雨 钱铭怡 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第1期170-178,共9页
为模拟真实的社会化场景,探究自我聚焦如何影响社交焦虑个体对外部社交反馈信息的注意与状态焦虑,采用演讲与自由观看任务,105名被试在实验室中面对屏幕进行即兴演讲,同时自由观看提前录制的包含12位听众的录像,听众分别表现出正性、中... 为模拟真实的社会化场景,探究自我聚焦如何影响社交焦虑个体对外部社交反馈信息的注意与状态焦虑,采用演讲与自由观看任务,105名被试在实验室中面对屏幕进行即兴演讲,同时自由观看提前录制的包含12位听众的录像,听众分别表现出正性、中性和负性的反馈。研究中操纵被试的自我聚焦(高自我聚焦条件或低自我聚焦条件),采用眼动仪测量被试在演讲中对正性、中性和负性反馈的注意,并使用生理仪测量皮肤电和心率。结果显示,自我聚焦在整体上减少了高、低社交焦虑组对外部社交反馈信息的注意,高、低社交焦虑组的心率在高自我聚焦条件下均比低自我聚焦条件下快。研究结果表明,自我聚焦削弱了社交焦虑个体对外部刺激的注意加工。 展开更多
关键词 社交焦虑 自我聚焦 注意偏向 状态焦虑 演讲任务 眼动
在线阅读 下载PDF
非汉语母语者的普通话元音和辅音感知研究 被引量:3
10
作者 古扎丽努尔·德力木拉提 古力努尔·艾尔肯 +1 位作者 米吉提·阿不里米提 艾斯卡尔·艾木都拉 《声学技术》 CSCD 北大核心 2020年第2期214-219,共6页
语音感知研究是语音学主要研究内容之一。为了解学习者对普通话元音和辅音的感知情况,并为汉语教学提供借鉴,拓宽言语学习模型的应用领域,减少教学的盲目性,根据第二语言习得理论模式,采用实验语音学和统计学的方法,设计辨认实验和区分... 语音感知研究是语音学主要研究内容之一。为了解学习者对普通话元音和辅音的感知情况,并为汉语教学提供借鉴,拓宽言语学习模型的应用领域,减少教学的盲目性,根据第二语言习得理论模式,采用实验语音学和统计学的方法,设计辨认实验和区分实验,分别对普通话水平处于高级和初级水平的20名维吾尔族大学生元音、塞音、擦音和塞擦音的感知情况进行研究。辨认实验考察学习者对元音和辅音的感知反应时间和感知准确率。在区分实验中,计算元音对的频谱距离,辅音对的频谱距离,以及它们的时长差异,对学习者的区分能力进行分析。实验结果显示高级水平学习者的感知元音和辅音的能力明显高于初级水平学习者。学习者对发音部位靠后的元音反应时间快且感知准确率高,对于发音部位靠前的元音反应时间较慢且感知准确率低,对塞擦音的辨认准确率高,对擦音的辨认准确度最低。元音对的频谱距离和辅音对的时长差异会影响到学习者的区分能力,但辅音对的频谱距离和区分情况不存在密切联系。 展开更多
关键词 辨认实验 区分实验 语音感知 频谱距离 时长差异
在线阅读 下载PDF
采用多任务学习和循环神经网络的语音情感识别算法 被引量:19
11
作者 冯天艺 杨震 《信号处理》 CSCD 北大核心 2019年第7期1133-1140,共8页
随着机器学习的快速发展,许多研究者使用神经网络来解决语音识别领域中的各类问题。然而由于训练数据有限等原因,常规的神经网络分类器普遍存在泛化误差等问题。为了解决此问题,迁移学习中的多任务学习被引入到研究中。本文提出了一种... 随着机器学习的快速发展,许多研究者使用神经网络来解决语音识别领域中的各类问题。然而由于训练数据有限等原因,常规的神经网络分类器普遍存在泛化误差等问题。为了解决此问题,迁移学习中的多任务学习被引入到研究中。本文提出了一种采用多任务学习和循环神经网络的语音情感识别算法(MTL-RNN),将说话人情感识别作为主任务,性别识别和身份识别作为辅助任务,三个任务在神经网络中并行训练。算法模型通过RNN共享层共享网络参数、学习共享特征,通过属性依赖层学习独有特征,以提升模型的分类性能。实验结果表明,本文所提出的MTL-RNN算法在汉语和阿拉伯语、较少说话人和较多说话人的场景下均有较好的识别性能。 展开更多
关键词 语音情感识别 多任务学习 循环神经网络
在线阅读 下载PDF
语音增强与检测的多任务学习方法研究 被引量:6
12
作者 王师琦 曾庆宁 +2 位作者 龙超 熊松龄 祁潇潇 《计算机工程与应用》 CSCD 北大核心 2021年第20期197-202,共6页
在许多语音信号处理的实际应用中,都要求系统能够低延迟地实时处理多个任务,并且对噪声要有很强的鲁棒性。针对上述问题,提出了一种语音增强和语音活动检测(Voice Activity Detection,VAD)的多任务深度学习模型。该模型通过引入长短时记... 在许多语音信号处理的实际应用中,都要求系统能够低延迟地实时处理多个任务,并且对噪声要有很强的鲁棒性。针对上述问题,提出了一种语音增强和语音活动检测(Voice Activity Detection,VAD)的多任务深度学习模型。该模型通过引入长短时记忆(Long Short-Term Memory,LSTM)网络,构建了一个适合于实时在线处理的因果系统。基于语音增强和VAD的强相关性,该模型以硬参数共享的方式连接了两个任务的输出层,不仅减少了计算量,还通过多任务学习提高了任务的泛化能力。实验结果表明,相较串行处理两个任务的基线模型,多任务模型在语音增强结果非常相近、VAD结果更优的情况下,其速度快了44.2%,这对于深度学习模型的实际应用和部署将具有重要的意义。 展开更多
关键词 多任务学习 深度学习 语音增强 语音活动检测
在线阅读 下载PDF
基于带阈值的BPE-dropout多任务学习的端到端语音识别 被引量:2
13
作者 马建 朵琳 +1 位作者 韦贵香 唐剑 《吉林大学学报(理学版)》 CAS 北大核心 2024年第3期674-682,共9页
针对语音识别任务中出现的未登录词问题,提出一种带阈值的BPE-dropout多任务学习语音识别方法.该方法采用带随机性的字节对编码算法,在形成子词时引入带字数阈值的策略,将子词作为建模单元,编码器部分采用Conformer结构,与链接时序分类... 针对语音识别任务中出现的未登录词问题,提出一种带阈值的BPE-dropout多任务学习语音识别方法.该方法采用带随机性的字节对编码算法,在形成子词时引入带字数阈值的策略,将子词作为建模单元,编码器部分采用Conformer结构,与链接时序分类和注意力机制相结合.为进一步提升模型性能,引入动态参数对损失函数进行动态调节,并同时进行多任务训练和解码.实验结果表明,该方法采用子词作为建模单元可有效解决未登录词问题,在多任务学习框架下进一步提升了模型的识别性能.在公开数据集THCHS30和ST-CMDS上,该模型实现了超过95%的识别准确率. 展开更多
关键词 语音识别 多任务学习 字节对编码 动态调节参数
在线阅读 下载PDF
基于多任务损失附加语言模型的语音识别方法 被引量:5
14
作者 柳永利 张绍阳 +1 位作者 王裕恒 解熠 《江苏大学学报(自然科学版)》 CAS 北大核心 2023年第5期564-569,共6页
针对Attention过于灵活的对齐方式在复杂环境中适应性差、简单端到端模型对语言特征利用不充分的问题,研究了基于多任务损失附加语言模型的语音识别方法.通过分析语音信号特征,训练中选用包含更多信息的特征.以基于Attention的Conforme... 针对Attention过于灵活的对齐方式在复杂环境中适应性差、简单端到端模型对语言特征利用不充分的问题,研究了基于多任务损失附加语言模型的语音识别方法.通过分析语音信号特征,训练中选用包含更多信息的特征.以基于Attention的Conformer端到端模型为基础,采用CTC损失辅助纯Conformer(Attention)的多任务损失训练模型,得到Conformer-CTC语音识别模型.在Conformer-CTC模型基础上,通过分析对比部分语言模型的特点与效果,将Transformer语言模型通过重打分机制附加至上述模型的训练中,最终得到Conformer-CTC-Transformer语音识别模型.在AISHELL-1数据集上对上述模型进行了试验.结果表明:Conformer-CTC模型相对于纯Conformer(Attention)模型在测试集上的字错率(character error rate,CER)降低了0.49%,而Conformer-CTC-Transformer模型相对于Conformer-CTC模型在测试集上的CER又降低了0.79%.CTC损失可以改善Attention对齐方式在复杂环境中的适应性,并且对Conformer-CTC模型附加Transformer语言模型重打分后能再次提升0.30%的识别准确率.相较于现有的部分端到端模型,Conformer-CTC-Transformer模型识别效果较好,说明该模型具有一定的有效性. 展开更多
关键词 语音识别 深度学习 语言模型 多任务损失 CONFORMER TRANSFORMER CTC
在线阅读 下载PDF
模仿跟读任务下5~7岁痉挛型脑瘫儿童言语流利性特征研究
15
作者 丁忠冰 王勇丽 +4 位作者 刘杰 陈世动 杨三华 万勤 黄昭鸣 《听力学及言语疾病杂志》 CAS CSCD 北大核心 2022年第6期599-603,共5页
目的探讨模仿跟读语言任务下5~7岁痉挛型脑瘫儿童言语流利性障碍特征。方法通过匹配年龄、性别、受试者类型等影响因素,选取5~7岁痉挛型脑瘫儿童和普通儿童各44例,以《唱歌篇》标准音作为模仿跟读测试材料,比较两类儿童在模仿跟读语言... 目的探讨模仿跟读语言任务下5~7岁痉挛型脑瘫儿童言语流利性障碍特征。方法通过匹配年龄、性别、受试者类型等影响因素,选取5~7岁痉挛型脑瘫儿童和普通儿童各44例,以《唱歌篇》标准音作为模仿跟读测试材料,比较两类儿童在模仿跟读语言任务下语速、停顿、拖延与重复的言语流利性差异。结果痉挛型脑瘫儿童的言语速率(MD=-0.637,P<0.01)和构音速率(MD=-1.647,P<0.01)极显著低于普通儿童,痉挛型脑瘫儿童的异常停顿次数(MD=29.134,P<0.01)、异常停顿时长(MD=18.750,P<0.01)、拖延次数(MD=28.545,P<0.01)、拖延时长(MD=17.925,P<0.01)和重复次数(MD=3.455,P<0.01)极显著高于普通儿童。结论痉挛型脑瘫儿童存在语速异常偏慢,异常停顿次数、拖延次数和重复次数偏多,异常停顿时长和拖延时长偏长等问题,表明其存在异常语速、异常停顿、异常拖延与异常重复等言语流利性障碍。 展开更多
关键词 痉挛型脑瘫 言语流利性 模仿跟读语言任务
在线阅读 下载PDF
语音重复任务在轻度认知功能障碍检测中的应用 被引量:2
16
作者 殷潇潇 王思文 +3 位作者 王贺 高琳琳 任智 王钦文 《中国神经精神疾病杂志》 CAS CSCD 北大核心 2024年第4期247-251,共5页
轻度认知功能障碍(mild cognitive impairment,MCI)通常被视为痴呆的前驱阶段,其主要特征为认知功能轻度下降。研究表明,MCI患者中语言变化可能先于其他认知功能症状,这为早期识别和干预提供了机会。MCI患者语言特点包括语速、发音和语... 轻度认知功能障碍(mild cognitive impairment,MCI)通常被视为痴呆的前驱阶段,其主要特征为认知功能轻度下降。研究表明,MCI患者中语言变化可能先于其他认知功能症状,这为早期识别和干预提供了机会。MCI患者语言特点包括语速、发音和语调等异常。五个单词测验、数字延迟匹配测试和句子重复测试等语音重复任务,是评估MCI患者语言特点的有效方法,这些任务要求患者重复特定内容,分析重复准确性,从而评估其语言功能。机器学习和深度学习技术的应用,能自动提取语音重复任务数据中的MCI相关特征,提高诊断准确性。这些技术的结合应用有助于早期发现MCI,为及时干预提供依据。 展开更多
关键词 认知功能障碍 任务重复 阿尔茨海默病 语言 语音识别 机器学习 深度学习
在线阅读 下载PDF
基于多任务自适应知识蒸馏的语音增强
17
作者 张刚敏 李雅荣 +2 位作者 贾海蓉 王鲜霞 段淑斐 《太原理工大学学报》 CAS 北大核心 2024年第4期720-726,共7页
【目的】提出一种多任务自适应知识蒸馏的语音增强算法,旨在解决复杂模型在时间和硬件等计算成本方面带来的问题,同时提高语音增强算法的性能。【方法】首先,采用知识蒸馏的思想来解决现有的语音增强模型过于庞大、参数多造成计算成本... 【目的】提出一种多任务自适应知识蒸馏的语音增强算法,旨在解决复杂模型在时间和硬件等计算成本方面带来的问题,同时提高语音增强算法的性能。【方法】首先,采用知识蒸馏的思想来解决现有的语音增强模型过于庞大、参数多造成计算成本上升问题;其次,充分考虑不同时频单元之间的差异,引入加权因子来优化传统损失函数提升学生网络性能;为了避免教师网络预测的不确定性影响学生网络的性能,构建多任务自适应学习的知识蒸馏网络,可以更好地利用不同任务之间的关联性优化模型。【结果】实验仿真结果表明,所提出的算法在减少参数量、缩短计算时间的同时,还能有效提高语音增强模型的性能。 展开更多
关键词 语音增强 知识蒸馏 多任务自适应学习 加权损失函数
在线阅读 下载PDF
基于多任务深度特征提取及MKPCA特征融合的语音情感识别 被引量:5
18
作者 李宝芸 张雪英 +3 位作者 李娟 黄丽霞 陈桂军 孙颖 《太原理工大学学报》 CAS 北大核心 2023年第5期782-788,共7页
【目的】针对传统声学特征所含情感信息不足的问题,提出一种基于多任务学习的深度特征提取模型优化声学特征,所提声学深度特征既能更好表征自身又拥有更多情感信息。【方法】基于声学特征与语谱图特征之间的互补性,首先通过卷积神经网... 【目的】针对传统声学特征所含情感信息不足的问题,提出一种基于多任务学习的深度特征提取模型优化声学特征,所提声学深度特征既能更好表征自身又拥有更多情感信息。【方法】基于声学特征与语谱图特征之间的互补性,首先通过卷积神经网络提取语谱图特征,然后使用多核主成分分析方法对这两个特征进行特征融合降维,所得融合特征可有效提升系统识别性能。【结果】在EMODB语音库与CASIA语音库上进行实验验证,当采用DNN分类器时,声学深度特征与语谱图特征的多核融合特征取得最高识别率为92.71%、88.25%,相比直接拼接特征,识别率分别提升2.43%、2.83%. 展开更多
关键词 语音情感识别 多任务学习 声学深度特征 语谱图特征 多核主成分分析
在线阅读 下载PDF
基于多任务学习的语音情感识别 被引量:1
19
作者 李云峰 闫祖龙 +2 位作者 高天 方昕 邹亮 《数据采集与处理》 CSCD 北大核心 2024年第2期424-432,共9页
在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感。然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低。鉴于此,本文提出了一种基于多任务学习、端到端的语音情感... 在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感。然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低。鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率。为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征。为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感。在公开数据集IEMOCAP上的实验结果表明,本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率,相比传统单任务学习模型性能得到了明显提升。同时,消融实验验证了辅助任务和自监督网络微调策略的有效性。 展开更多
关键词 深度学习 多任务学习 语音情感识别 自监督模型 微调策略
在线阅读 下载PDF
基于多层次预训练策略和多任务学习的端到端蒙汉语音翻译
20
作者 王宁宁 飞龙 张晖 《中文信息学报》 CSCD 北大核心 2024年第10期71-79,共9页
端到端语音翻译将源语言语音直接翻译为目标语言文本,其需要“源语言语音-目标语言文本”作为训练数据,然而这类数据极其稀缺,该文提出了一种多层次预训练策略和多任务学习相结合的训练方法,首先分别对语音识别和机器翻译模型的各个模... 端到端语音翻译将源语言语音直接翻译为目标语言文本,其需要“源语言语音-目标语言文本”作为训练数据,然而这类数据极其稀缺,该文提出了一种多层次预训练策略和多任务学习相结合的训练方法,首先分别对语音识别和机器翻译模型的各个模块进行多层次预训练,接着将语音识别和机器翻译模型连接起来构成语音翻译模型,然后使用迁移学习对预训练好的模型进行多步骤微调,在此过程中又运用多任务学习的方法,将语音识别作为语音翻译的一个辅助任务来组织训练,充分利用了已经存在的各种不同形式的数据来训练端到端模型,首次将端到端技术应用于资源受限条件下的蒙汉语音翻译,构建了首个翻译质量较高、实际可用的端到端蒙汉语音翻译系统。 展开更多
关键词 蒙古语 端到端语音翻译 预训练 多任务学习
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部