-
题名基于异构并行神经网络的语音情感识别
被引量:10
- 1
-
-
作者
张会云
黄鹤鸣
-
机构
青海师范大学计算机学院
藏语智能信息处理及应用国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第4期113-118,共6页
-
基金
国家自然科学基金(62066039)。
-
文摘
提取能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别系统的核心。面向语音情感识别构建基于注意力机制的异构并行卷积神经网络模型AHPCL,采用长短时记忆网络提取语音情感的时间序列特征,使用卷积操作提取语音空间谱特征,通过将时间信息和空间信息相结合共同表征语音情感,提高预测结果的准确率。利用注意力机制,根据不同时间序列特征对语音情感的贡献程度分配权重,实现从大量特征信息中选择出更能表征语音情感的时间序列。在CASIA、EMODB、SAVEE等3个语音情感数据库上提取音高、过零率、梅尔频率倒谱系数等低级描述符特征,并计算这些低级描述符特征的高级统计函数共得到219维的特征作为输入进行实验验证。结果表明,AHPCL模型在3个语音情感数据库上分别取得了86.02%、84.03%、64.06%的未加权平均召回率,相比LeNet、DNN-ELM和TSFFCNN基线模型具有更强的鲁棒性和泛化性。
-
关键词
语音情感识别
谱特征
韵律特征
注意力机制
异构并行分支
循环神经网络
-
Keywords
Speech Emotion Recognition(SER)
spectral feature
prosodic feature
attention mechanism
heterogeneous parallel branch
Recurrent Neural Network(RNN)
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-