期刊文献+
共找到177篇文章
< 1 2 9 >
每页显示 20 50 100
基于无监督图对比学习的语音情感识别
1
作者 张雪梅 孙颖 张雪英 《浙江大学学报(工学版)》 北大核心 2026年第4期782-790,共9页
针对多数语音数据集中有标签数据稀疏和高维语音特征建模困难的问题,提出基于无监督图对比学习的语音情感识别网络(SERUGCL).该方法使用无标签数据进行训练,基于特征相似性构建语音特征原始视图,利用图结构建模语音帧之间的依赖关系,从... 针对多数语音数据集中有标签数据稀疏和高维语音特征建模困难的问题,提出基于无监督图对比学习的语音情感识别网络(SERUGCL).该方法使用无标签数据进行训练,基于特征相似性构建语音特征原始视图,利用图结构建模语音帧之间的依赖关系,从而缓解高维特征直接建模带来的计算压力;通过快速梯度符号方法(FGSM)和子图采样-边缘扰动组合生成2种增强视图.所有视图通过差异化编码器进行处理,并采用加权池化机制获取全局嵌入.使用支持向量机(SVM)进行情感分类.所提出的SERUGCL模型在IEMOCAP数据集上取得69.96%的未加权准确率(UA)和70.24%的加权准确率(WA),在EMO-DB数据集上取得91.04%的UA和90.29%的WA.相较于DSTCNet,SERUGCL在IEMOCAP数据集上的UA和WA提高了8.18个百分点和8.44个百分点,在EMO-DB数据集上的UA和WA提高了4.49个百分点和1.50个百分点.对比试验和消融实验结果也验证了模型的有效性. 展开更多
关键词 语音情感识别 无监督学习 图对比学习 特征增强 加权池化
在线阅读 下载PDF
基于SAE-LS-CGAN数据增强的语音情感识别
2
作者 魏佳楠 孙颖 张雪英 《太原理工大学学报》 北大核心 2026年第1期202-211,共10页
【目的】语音情感语料库普遍存在数据稀少的问题,而深度神经网络的训练依赖大规模标注数据以保障模型性能。数据增强是缓解该问题的主流技术手段,但是当前语音情感识别领域对数据增强方法的有效性验证研究尚且不足。【方法】在分析多种... 【目的】语音情感语料库普遍存在数据稀少的问题,而深度神经网络的训练依赖大规模标注数据以保障模型性能。数据增强是缓解该问题的主流技术手段,但是当前语音情感识别领域对数据增强方法的有效性验证研究尚且不足。【方法】在分析多种语音数据增强方法的基础上,提出了一种基于改进条件生成对抗模型(Conditional Generative Adversarial Network,CGAN)的新的数据增强模型SAE-LS-CGAN。该模型将语音特征映射为N个矩阵,鉴别器分别对每个矩阵进行评价,提升鉴别精度。与传统的生成对抗网络(Generative Adversarial Network,GAN)相比,该模型引入栈式自编码器(Stacked AutoEncoder,SAE),并将其输出作为改进CGAN的输入,同时结合类别学习器(Class Learning Block,CLB)优化生成样本的质量;进一步引入最小二乘损失函数(The Least Squares Loss Function,LS)对网络进行对抗性训练,在原始特征空间和潜在空间中生成高质量的特征向量,并将生成数据融入到训练数据中用于分类。【结果】实验结果表明,所提模型在Emo-DB和IEMOCAP数据集上的语音情感识别任务中均取得了较优的性能表现。 展开更多
关键词 语音情感识别 数据增强 栈式自编码器 条件生成对抗网络 最小二乘损失函数
在线阅读 下载PDF
结合性别信息的多任务语音情感识别
3
作者 姚佳 李冬冬 王喆 《计算机科学》 北大核心 2026年第1期180-186,共7页
现有的语音情感识别方法通常依赖深度学习模型提取声学特征,但大多仅关注通用特征的建模,未能充分挖掘数据中与情感密切相关的先验知识。为此,提出了一种端到端的多任务学习框架,利用自监督预训练模型WavLM提取包含丰富情感信息的语音特... 现有的语音情感识别方法通常依赖深度学习模型提取声学特征,但大多仅关注通用特征的建模,未能充分挖掘数据中与情感密切相关的先验知识。为此,提出了一种端到端的多任务学习框架,利用自监督预训练模型WavLM提取包含丰富情感信息的语音特征,并将性别识别作为辅助任务,以捕捉性别差异对情感识别的潜在影响。针对传统多任务学习框架中固定权重计算损失导致的学习不均衡问题,进一步提出了一种自适应温度系数的动态权重平均方法(Temperature-aware Dynamic Weight Averaging,TA-DWA)。该方法通过动态调整温度系数平衡不同任务的学习速度,并结合任务损失变化率实现更合理的权重分配。实验结果表明,在IEMOCAP和EMODB数据集上,所提方法显著提高了情感识别准确率,验证了性别识别作为辅助任务的有效性以及动态权重策略在多任务学习中的优势。 展开更多
关键词 语音情感识别 多任务学习 动态权重分配 自监督模型
在线阅读 下载PDF
融合性别与情绪强度提示特征的多层次语音情感识别模型
4
作者 秦振凯 罗起宁 +2 位作者 农熏衣 于小川 操晓春 《信息网络安全》 北大核心 2026年第3期420-431,共12页
为解决复杂情境下语音情感识别准确率低的问题,文章基于深度卷积神经网络构建SACER模型,以提升识别性能。首先,通过梅尔频率倒谱系数(MFCC)提取语音信号的频谱特征,以精确捕捉语音中的关键频率信息;然后,利用动态提示特征嵌入技术,将性... 为解决复杂情境下语音情感识别准确率低的问题,文章基于深度卷积神经网络构建SACER模型,以提升识别性能。首先,通过梅尔频率倒谱系数(MFCC)提取语音信号的频谱特征,以精确捕捉语音中的关键频率信息;然后,利用动态提示特征嵌入技术,将性别和情绪强度等背景信息进行有机融合,进而提升模型在复杂语境下对个体差异的适应能力;最后,借助深度卷积神经网络,对语音信号的局部和全局特征进行多层次提取与联合建模,从而全面捕捉语音信号中的细微情绪波动及其全局背景特征。在RAVDESS语音情感数据集上的实验结果表明,该模型在多种情感类别和不同个体差异下的表现均优于基于注意力机制与LSTM的语音情绪识别等主流方法,其准确率达到94.58%,相较于对比方法平均提升约11.73%,这证明了该模型在语音情感识别任务中的高准确性。 展开更多
关键词 深度学习 语音情感识别 情绪强度
在线阅读 下载PDF
基于SAA-CNN-BiLSTM网络的多特征融合语音情感识别方法
5
作者 昝志辉 王雅静 +2 位作者 李珂 杨智翔 杨光宇 《计算机应用》 北大核心 2026年第1期69-76,共8页
针对单一语音情感特征对语音信息表征不全面及模型对语音特征利用率低的问题,提出一种基于SAACNN-BiLSTM网络的多特征融合语音情感识别方法。该方法引入噪声、音量和音速增强器对数据进行增强,以使模型学习到多样化数据特征,并将基频、... 针对单一语音情感特征对语音信息表征不全面及模型对语音特征利用率低的问题,提出一种基于SAACNN-BiLSTM网络的多特征融合语音情感识别方法。该方法引入噪声、音量和音速增强器对数据进行增强,以使模型学习到多样化数据特征,并将基频、时域以及频域特征进行多特征融合,从不同角度全面表达情感信息。此外,在双向长短时记忆(BiLSTM)网络的基础上引入卷积神经网络(CNN)捕获输入数据的空间相关性,并提取更具代表性的特征。同时,构建简化加性注意力(SAA)机制,简化显式查询键和查询向量,使注意力权重计算不依赖于特定查询信息,而不同维度的特征能基于注意力权重进行相互关联和影响,特征之间的信息得以交互和融合,从而提高特征的有效利用率。实验结果表明,该方法在EMO-DB、CASIA和SAVEE数据集上分别达到了87.02%、82.59%和73.13%的加权精度,相较于增量卷积(IncConv)、异构并行卷积双向长短期记忆(NHPC-BiLSTM)和动态卷积递归神经网络(DCRNN)等基线方法,分别提升了0.52~9.80、2.92~23.09和3.13~16.63个百分点。 展开更多
关键词 语音情感识别 深度学习 多特征融合 数据增强 长短时记忆网络 简化加性注意力机制
在线阅读 下载PDF
低资源条件下的藏语语音情感识别 被引量:1
6
作者 张维昭 李皓渊 杨鸿武 《信号处理》 北大核心 2025年第9期1558-1569,共12页
近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提... 近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提取与增强、人工标注与校对等步骤,初步构建了藏语情感语音数据集(Tibetan Emotion Speech Dataset-2500,TESD-2500)。该数据集涵盖四种情感类型(生气、悲伤、高兴和中性),共包含2500个语音样本,情感类别与样本数量仍在持续扩充中。然后,设计了一种融合交叉注意力与协同注意力机制的多特征融合语音情感识别模型,采用双向长短期记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)对梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)进行时序建模,以提取语音信号中的动态时序表征;利用AlexNet提取语谱图的时频特征,以捕获语音信号的时频联合分布模式,并通过交叉注意力机制计算上述两类异构特征间的相关性权重;引入大规模预训练模型WavLM提取语音信号的深层特征,并以前述交叉注意力计算的结果作为权重向量,通过协同注意力机制对深层特征进行加权重构;将MFCC时序特征、语谱图时频特征和加权的预训练模型深层特征拼接成多层次特征融合表示,通过全连接层映射至情感类别空间,完成藏语语音情感分类任务。最终实验结果表明,所提出的模型在TESD-2500数据集上取得了76.56%的加权准确率和75.42%的未加权准确率,显著优于基线模型。本文还在IEMOCAP和EmoDB数据集上进行了模型泛化能力测试,在IEMOCAP上达到了74.27%的加权准确率和73.60%的未加权准确率,在EmoDB上达到了92.61%的加权准确率和91.68%的未加权准确率。本文的研究方法与结果亦可为其他低资源语言的语音情感识别研究提供参考。 展开更多
关键词 语音情感识别 低资源 多特征融合 预训练模型 藏语
在线阅读 下载PDF
基于改进高效通道注意力机制的多特征语音情感识别 被引量:2
7
作者 杜晨阳 张雪英 +1 位作者 黄丽霞 李娟 《计算机工程》 北大核心 2025年第4期97-106,共10页
注意力机制已经广泛地用于语音情感识别(SER)领域,但是传统注意力模块在提升模型性能表现的同时也会大幅增加模型的参数量。高效通道注意力(ECA)机制虽然参数量较小,但是只能对通道维度生成注意力权重。针对这个问题,提出一种改进ECA(IE... 注意力机制已经广泛地用于语音情感识别(SER)领域,但是传统注意力模块在提升模型性能表现的同时也会大幅增加模型的参数量。高效通道注意力(ECA)机制虽然参数量较小,但是只能对通道维度生成注意力权重。针对这个问题,提出一种改进ECA(IECA)模块,该模块以较小的参数量对输入的特征图的各个维度生成对应的权重,使得模型更关注和利用特征图中的重要信息。此外,为了进一步提升识别率,分别提取语音的语谱图特征和IS10特征,通过融合网络对不同支路的预测结果进行决策融合,得到最终的预测结果。所提出的模型在EMODB和CASIA两个语音情感数据集上分别取得了91.63%、92.46%的加权准确率(WA)和91.25%、92.33%的未加权平均召回率(UAR),相较之前的研究结果分别有2.69~8.43和4.16~10.69百分点的提升。 展开更多
关键词 深度学习 语音情感识别 注意力机制 多特征融合 决策级融合
在线阅读 下载PDF
基于记忆胶囊与注意力的语音情感识别 被引量:1
8
作者 董红亮 钮焱 +1 位作者 孙杨 李军 《计算机工程》 北大核心 2025年第4期169-177,共9页
当前语音情感识别中因情感特征提取不充分和模型对复杂情感表达建模能力不足,导致识别准确率降低。为了提高当前语音情感识别准确率,提出一种基于记忆胶囊和注意力的语音情感识别方法。首先,提取了语音中梅尔频率倒谱系数(MFCC)、能量... 当前语音情感识别中因情感特征提取不充分和模型对复杂情感表达建模能力不足,导致识别准确率降低。为了提高当前语音情感识别准确率,提出一种基于记忆胶囊和注意力的语音情感识别方法。首先,提取了语音中梅尔频率倒谱系数(MFCC)、能量的均方根(RMS)、梅尔语谱图、过零率(ZCR)、色度分布5种特征;然后,在MFCC特征的基础上,提取MFCC的一阶、二阶和三阶差分动态特征,并将其拼接;最后,将这些特征堆叠成一维向量的形式,通过引入记忆胶囊和注意力机制所构建的模型,完成对语音情感识别分类工作。实验结果表明,所提的模型具有较好的泛化性和鲁棒性,有效提升了语音情感识别的准确率,在RAVDESS、EMODB和IEMOCAP 3个数据集上的准确率分别达到了95.87%、98.82%和98.23%,与现有的方法相比,识别准确率均得到了有效提升。 展开更多
关键词 语音情感识别 特征提取 特征堆叠 记忆胶囊网络 注意力机制
在线阅读 下载PDF
融合动态卷积和注意力机制的多层感知机语音情感识别 被引量:4
9
作者 张雨萌 张欣 +1 位作者 高谋 赵虎林 《计算机科学与探索》 北大核心 2025年第4期1065-1075,共11页
语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息... 语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息利用效率。将输入的语音信号转化为梅尔频谱图,捕捉信号细节变化,更贴切地反映人类对声音的感知,为后续特征提取奠定了基础。通过词元化处理将梅尔频谱图转化为词元,降低了数据的复杂性。借助动态卷积与分离注意力机制高效提取关键的时频特征。一方面,动态卷积能够适应不同时间和频率上的尺度变化,优化了特征捕捉效率;另一方面,分离注意力机制增强了模型对关键信息的聚焦能力,有效提升了模型对特征的表达能力。结合动态卷积与分离注意力机制的优势,该模型能够更加充分地提取关键声学特征,从而实现了更高效、更精准的情感识别。在RAVDESS、EmoDB和CASIA三个语音情感数据库上的测试显示,模型识别准确率显著优于现有技术,达到86.11%、95.33%和82.92%。这验证了模型在复杂情感识别任务的高效性和准确性,以及动态卷积和注意力机制的有效性。 展开更多
关键词 语音情感识别 梅尔频谱图 多层感知机 动态卷积 注意力机制
在线阅读 下载PDF
基于CNN和双向GRU混合孪生网络的语音情感识别方法 被引量:1
10
作者 彭鹏 蔡子婷 +3 位作者 刘雯玲 陈才华 曾维 黄宝来 《计算机应用》 北大核心 2025年第8期2515-2521,共7页
针对现有语音情感识别(SER)模型精度较低、泛化能力较差的问题,提出一种孪生的Multi-scale CNNBiGRU网络。该网络通过引入多尺度特征提取器(MSFE)和多维度注意力(MDA)模块构建孪生网络,并利用样本对的形式增加模型训练量,从而提高模型... 针对现有语音情感识别(SER)模型精度较低、泛化能力较差的问题,提出一种孪生的Multi-scale CNNBiGRU网络。该网络通过引入多尺度特征提取器(MSFE)和多维度注意力(MDA)模块构建孪生网络,并利用样本对的形式增加模型训练量,从而提高模型的识别精度,使它能更好地适应复杂的真实应用场景。在IEMOCAP和EMODB这2个公开数据集上的实验结果表明,所提模型在识别精确率上较CNN-BiGRU分别提升了8.28和7.79个百分点。此外,通过收集客服真实语音对话录音构建一个客服语音情感数据集,在该数据集上的实验结果表明,所提模型的识别精确率可达到87.85%,证明所提模型具有良好的泛化性。 展开更多
关键词 语音情感识别 卷积神经网络 双向GRU 混合孪生网络 深度学习
在线阅读 下载PDF
面向语音情感识别的持续特征解耦生成方法
11
作者 宁美玲 齐佳音 +2 位作者 梁快 张洵 陈凯帆 《计算机科学与探索》 北大核心 2025年第7期1888-1898,共11页
针对语音情绪识别领域中语音模型缺乏大量带标签的训练数据和语音模型无法持续学习的问题,提出了一种面向语音情感识别的持续特征解耦生成方法,该方法能够有效地提取数据情感信息并能较好地进行持续学习分类。构建并行选择解耦器,利用... 针对语音情绪识别领域中语音模型缺乏大量带标签的训练数据和语音模型无法持续学习的问题,提出了一种面向语音情感识别的持续特征解耦生成方法,该方法能够有效地提取数据情感信息并能较好地进行持续学习分类。构建并行选择解耦器,利用频谱选择模块和内容选择模块将语音的频谱特征和内容特征建立联系,通过计算情绪相关系数,赋予解耦数据相关权重,生成融合特征数据。构建二阶知识流情绪分类器,充分挖掘利用生成的语音情绪数据,引入自定义L2归一化层,构建自定义持续语音情绪分类网络(CL-SER),利用多层卷积结构处理语音情绪数据,减少模型误差损失。利用任务蒸馏损失和任务平滑损失优化持续语音情感网络CL-SER,实现跨任务的知识迁移,提高模型持续分类准确率。在IEMOCAP数据集上,进行了生成数据性能、模型防止灾难性遗忘性能和情绪分类性能测试。实验结果表明,提出的持续语音情感数据生成方法在多组持续学习方法和语音情感识别方法中均展现出了在准确率、遗忘率和未加权平均召回率等方面的良好性能,相较于其他经典的持续学习方法和情绪识别方法更具优势。 展开更多
关键词 语音情感识别 持续学习 特征解耦学习 变分自编码器 知识迁移
在线阅读 下载PDF
渐进式表征学习语音情感识别方法CnnPRL
12
作者 樊永红 黄鹤鸣 《计算机应用》 北大核心 2025年第12期3804-3812,共9页
语音情感识别(SER)旨在赋予计算机准确识别语音信号中的情感状态的能力,而如何高效地表征语音中的情感特征一直是SER的研究热点。目前,大多数研究都致力于利用深度学习方法直接从原始语音或语谱图中学习最优特征,这种学习模式可以提取... 语音情感识别(SER)旨在赋予计算机准确识别语音信号中的情感状态的能力,而如何高效地表征语音中的情感特征一直是SER的研究热点。目前,大多数研究都致力于利用深度学习方法直接从原始语音或语谱图中学习最优特征,这种学习模式可以提取到更完整的特征信息,但忽略了对特定特征更深层细化信息的学习,同时不能保证特征的可解释性。为了解决上述问题,提出一种基于卷积神经网络的渐进式表征学习SER方法(CnnPRL),在语音声学特征的基础上利用卷积神经网络(CNN)渐进式地提取具有可解释性的精细化情感特征。首先,手工提取可解释的浅层特征并选择出最优的特征集;其次,提出级联CNN和动态融合结构,以细化浅层特征,并学习深层情感表征;最后,构建并行异构CNN提取不同尺度的互补特征,以利用融合模块实现多特征融合,捕获多粒度特征,并整合来自不同特征尺度的深层情感信息。实验结果表明,在保证时间复杂度的前提下,在数据集IEMOCAP(Interactive EMOtional dyadic motion CAPture database)、CASIA(Institute of Automation,Chinese Academy of Sciences)和EMODB(Berlin EMOtional DataBase)上,相较于SpeechFormer++、TLFMRF(Two-Layer Fuzzy Multiple Random Forest)和TIM-Net(Temporal-aware bI-direction Multi-scale Network)等对比方法,CnnPRL在指标加权平均召回率(WAR)上分别至少取得了0.86、2.92和1.46个百分点的提升,验证了CnnPRL的有效性;消融实验结果验证了CnnPRL的每个模块都有利于提升模型的整体性能。 展开更多
关键词 语音情感识别 渐进式情感表征学习 卷积神经网络 动态融合 多尺度融合
在线阅读 下载PDF
多层次通道融合语音情感识别方法 被引量:1
13
作者 张丽敏 李扬 +1 位作者 蔡浩 燕浩 《计算机科学与探索》 北大核心 2025年第8期2219-2228,共10页
语音情感识别是机器情感认知能力的关键,对于提高人机交互质量至关重要。然而,现有研究多聚焦于浅层特征的分析,忽略了多特征融合的优势,同时数据样本量有限,影响了模型的泛化能力,导致语音情感识别准确率不够理想。为了进一步提高语音... 语音情感识别是机器情感认知能力的关键,对于提高人机交互质量至关重要。然而,现有研究多聚焦于浅层特征的分析,忽略了多特征融合的优势,同时数据样本量有限,影响了模型的泛化能力,导致语音情感识别准确率不够理想。为了进一步提高语音情感识别的准确率,提出一种基于数据增强和多层次通道融合的语音情感识别方法。将原始语音加入高斯白噪声、音高转换和混合处理三种方法进行数据增强,提高模型的鲁棒性。提出一种基于wav2vec 2.0模型和CNN模型的多层次并行通道网络结构。其中,第一个通道采用wav2vec 2.0模型作为主干网络,学习语音数据的深层表征,再经过两层卷积的CNN模型进行计算;第二个通道提取语音情感浅层特征作为输入,采用五层卷积的CNN模型学习语音数据的浅层表征,更全面地分析语音数据的深层表征和浅层表征。将两个通道输出的表征进行融合,形成深浅结合的多层次语音情感特征体系。所提出的模型在RAVDESS和CASIA数据集上分别进行测试,准确率达到94.38%和98.75%,实验结果验证了所提方法的有效性。 展开更多
关键词 语音情感识别 多层次通道融合 wav2vec 2.0 卷积神经网络(CNN)
在线阅读 下载PDF
语音情感识别研究进展综述 被引量:177
14
作者 韩文静 李海峰 +1 位作者 阮华斌 马琳 《软件学报》 EI CSCD 北大核心 2014年第1期37-50,共14页
对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望.从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应... 对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望.从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析. 展开更多
关键词 人机交互 情感计算 情感描述模型 情感语音 情感声学特征 语音情感识别
在线阅读 下载PDF
基于改进型SVM算法的语音情感识别 被引量:23
15
作者 李书玲 刘蓉 +1 位作者 张鎏钦 刘红 《计算机应用》 CSCD 北大核心 2013年第7期1938-1941,共4页
为有效提高语音情感识别系统的识别率,研究分析了一种改进型的支持向量机(SVM)算法。该算法首先利用遗传算法对SVM参数惩罚因子和核函数中参数进行优化,然后用优化后的参数进行语音情感的建模与识别。在柏林数据集上进行7种和常用5种情... 为有效提高语音情感识别系统的识别率,研究分析了一种改进型的支持向量机(SVM)算法。该算法首先利用遗传算法对SVM参数惩罚因子和核函数中参数进行优化,然后用优化后的参数进行语音情感的建模与识别。在柏林数据集上进行7种和常用5种情感识别实验,取得了91.03%和96.59%的识别率,在汉语情感数据集上,取得了97.67%的识别率。实验结果表明该算法能够有效识别语音情感。 展开更多
关键词 支持向量机 语音情感识别 语音信号 参数优化 遗传算法
在线阅读 下载PDF
基于多级SVM分类的语音情感识别算法 被引量:26
16
作者 任浩 叶亮 +1 位作者 李月 沙学军 《计算机应用研究》 CSCD 北大核心 2017年第6期1682-1684,共3页
为了提高语音情感识别系统的识别准确率,在传统支持向量机(SVM)方法的基础上,提出了一种基于主成分分析法(PCA)的多级SVM情感分类算法。首先将容易区分的情感分开,针对混淆度大且不能再利用多级分类策略直接进行区分的情感,采用PCA进行... 为了提高语音情感识别系统的识别准确率,在传统支持向量机(SVM)方法的基础上,提出了一种基于主成分分析法(PCA)的多级SVM情感分类算法。首先将容易区分的情感分开,针对混淆度大且不能再利用多级分类策略直接进行区分的情感,采用PCA进行特征降维,然后逐级地判断出输入语音所属的情感类型。与传统基于SVM分类算法的语音情感识别相比,本方法可将七种情感的平均识别率提高5.05%,并且特征维度可降低58.3%,从而证明了所提出方法的正确性与有效性。 展开更多
关键词 语音情感识别 支持向量机 多级分类 主成分分析
在线阅读 下载PDF
基于长短期记忆和卷积神经网络的语音情感识别 被引量:28
17
作者 卢官明 袁亮 +2 位作者 杨文娟 闫静杰 李海波 《南京邮电大学学报(自然科学版)》 北大核心 2018年第5期63-69,共7页
为了提高语音情感识别的准确率,提出了一种基于长短期记忆(LSTM)和卷积神经网络(CNN)的语音情感识别方法。首先提取语音信号的梅尔(Mel)频谱序列作为LSTM网络的输入,利用LSTM网络提取语音信号的时域上下文特征,在此基础上再利用CNN从低... 为了提高语音情感识别的准确率,提出了一种基于长短期记忆(LSTM)和卷积神经网络(CNN)的语音情感识别方法。首先提取语音信号的梅尔(Mel)频谱序列作为LSTM网络的输入,利用LSTM网络提取语音信号的时域上下文特征,在此基础上再利用CNN从低层特征中学习提取更高层次的情感特征,并完成对语音信号的情感分类。在eNTRAFACE’05、RML和AFEW6. 0三种不同的情感数据库上进行了情感识别测试,实验结果表明,文中提出的方法在上述三种数据库上获得的平均识别率分别为49. 15%,85. 38%和37. 90%。此外,和传统的语音情感识别方法以及基于LSTM或CNN的语音情感识别方法进行了对比,验证了文中提出方法的有效性。 展开更多
关键词 语音情感识别 长短期记忆网络 卷积神经网络 人机交互
在线阅读 下载PDF
普通话语音情感识别的特征选择技术 被引量:14
18
作者 谢波 陈岭 +1 位作者 陈根才 陈纯 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2007年第11期1816-1822,共7页
针对情感声学特征在语音情感识别中的重要性问题,运用优先选择、序列前向、序列后向和逐步判别分析进行了特征选择.对说话人和文本均无关、说话人相关2组普通话情感语音进行特征选择,然后利用线性判别分析和支持向量机进行实际识别效果... 针对情感声学特征在语音情感识别中的重要性问题,运用优先选择、序列前向、序列后向和逐步判别分析进行了特征选择.对说话人和文本均无关、说话人相关2组普通话情感语音进行特征选择,然后利用线性判别分析和支持向量机进行实际识别效果的分析比较.特征选择结果表明,基频、对数能量、语速和第一共振峰均值对普通话情感语音具有较强的判别能力,但情感声学特征的判别力随着说话人的不同而有所差异.特征选择方法比较实验表明,逐步判别分析比其他3种方法具有更高的平均准确率,当特征个数为9~12时分类器的平均准确率最高.效用分析表明,特征选择在小样本时更加有效. 展开更多
关键词 情感计算 语音情感识别 情感声学特征 特征选择 普通话
在线阅读 下载PDF
混合蛙跳算法神经网络及其在语音情感识别中的应用 被引量:11
19
作者 余华 黄程韦 +2 位作者 张潇丹 金赟 赵力 《南京理工大学学报》 EI CAS CSCD 北大核心 2011年第5期659-663,共5页
该文将混合蛙跳算法(SELA)优化方法应用于人工神经网络训练中,对6种语音情感进行了语音情感特征的分析与识别。研究了谐波噪声比特征随情感类别的变化特性。利用混合蛙跳算法训练随机产生的初始数据优化神经网络的连接权值,快速实现了... 该文将混合蛙跳算法(SELA)优化方法应用于人工神经网络训练中,对6种语音情感进行了语音情感特征的分析与识别。研究了谐波噪声比特征随情感类别的变化特性。利用混合蛙跳算法训练随机产生的初始数据优化神经网络的连接权值,快速实现了网络收敛。实验比较了BP神经网络、RBF神经网络和SFLA神经网络的语音情感识别性能。结果表明,SFLA神经网络的平均识别率分别高于BP神经网络和RBF神经网络4.7%和4.3%。 展开更多
关键词 混合蛙跳算法 神经网络 语音情感识别 辨识率
在线阅读 下载PDF
基于粒子群优化神经网络的语音情感识别 被引量:20
20
作者 余华 黄程韦 +1 位作者 金赟 赵力 《数据采集与处理》 CSCD 北大核心 2011年第1期57-62,共6页
提出了一种基于粒子群优化算法的人工神经网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化。利用粒子群优化算法(PSO)训练随机产生的初始数据,优化... 提出了一种基于粒子群优化算法的人工神经网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化。利用粒子群优化算法(PSO)训练随机产生的初始数据,优化神经网络的连接权值和阈值,快速地实现网络的收敛。在实验中比较了BP神经网络、RBF神经网络与PSO神经网络分别用于语音情感识别的识别率,PSO神经网络的平均识别率高于BP神经网络6.7%,高于RBF神经网络5.4%。结果显示,粒子群优化神经网络用于语音情感识别提高了识别性能。 展开更多
关键词 语音情感识别 粒子群优化 神经网络
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部