-
题名基于多任务学习的语音情感识别
被引量:1
- 1
-
-
作者
李云峰
闫祖龙
高天
方昕
邹亮
-
机构
中国矿业大学信息与控制工程学院
科大讯飞股份有限公司核心研发平台
-
出处
《数据采集与处理》
CSCD
北大核心
2024年第2期424-432,共9页
-
基金
科技创新2030——“新一代人工智能”重大项目(2020AAA0107300)
徐州市基础研究计划项目(KC22020)。
-
文摘
在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感。然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低。鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率。为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征。为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感。在公开数据集IEMOCAP上的实验结果表明,本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率,相比传统单任务学习模型性能得到了明显提升。同时,消融实验验证了辅助任务和自监督网络微调策略的有效性。
-
关键词
深度学习
多任务学习
语音情感识别
自监督模型
微调策略
-
Keywords
deep learning
multi-task learning
speech emotion recognition
self-supervised model
finetuning strategy
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-