为解决网络训练复杂度高的问题并改进语音情感特征提取,提出了基于双嵌套残差网络(DNResNet11)与通道注意残差网络(CRNet)的双支路特征提取模型。首先,设计了低复杂度的DN-ResNet11以高效提取语谱图的融合情感特征,提升情感识别率;然后...为解决网络训练复杂度高的问题并改进语音情感特征提取,提出了基于双嵌套残差网络(DNResNet11)与通道注意残差网络(CRNet)的双支路特征提取模型。首先,设计了低复杂度的DN-ResNet11以高效提取语谱图的融合情感特征,提升情感识别率;然后,结合多尺度引导滤波和局部二值模式(local binary pattern,LBP)算法对语谱图进行细节增强;最后,融合两组特征进行情感分类,形成双支路加权融合模型(weighted fusion model based on dual nested residual and channel residual network,WFDN_CRNet),进一步提升情感表征能力。在CASIA、EMO-DB、IEMOCAP等语音情感数据集上情感识别率分别达到94.58%、85.59%、65.72%,所提方法在情感识别率优于ResNet18等基准方法的同时,显著降低了计算成本,验证了模型的有效性。展开更多
文摘为解决网络训练复杂度高的问题并改进语音情感特征提取,提出了基于双嵌套残差网络(DNResNet11)与通道注意残差网络(CRNet)的双支路特征提取模型。首先,设计了低复杂度的DN-ResNet11以高效提取语谱图的融合情感特征,提升情感识别率;然后,结合多尺度引导滤波和局部二值模式(local binary pattern,LBP)算法对语谱图进行细节增强;最后,融合两组特征进行情感分类,形成双支路加权融合模型(weighted fusion model based on dual nested residual and channel residual network,WFDN_CRNet),进一步提升情感表征能力。在CASIA、EMO-DB、IEMOCAP等语音情感数据集上情感识别率分别达到94.58%、85.59%、65.72%,所提方法在情感识别率优于ResNet18等基准方法的同时,显著降低了计算成本,验证了模型的有效性。