期刊文献+
共找到1,564篇文章
< 1 2 79 >
每页显示 20 50 100
Adaptive bands filter bank optimized by genetic algorithm for robust speech recognition system 被引量:5
1
作者 黄丽霞 G.Evangelista 张雪英 《Journal of Central South University》 SCIE EI CAS 2011年第5期1595-1601,共7页
Perceptual auditory filter banks such as Bark-scale filter bank are widely used as front-end processing in speech recognition systems.However,the problem of the design of optimized filter banks that provide higher acc... Perceptual auditory filter banks such as Bark-scale filter bank are widely used as front-end processing in speech recognition systems.However,the problem of the design of optimized filter banks that provide higher accuracy in recognition tasks is still open.Owing to spectral analysis in feature extraction,an adaptive bands filter bank (ABFB) is presented.The design adopts flexible bandwidths and center frequencies for the frequency responses of the filters and utilizes genetic algorithm (GA) to optimize the design parameters.The optimization process is realized by combining the front-end filter bank with the back-end recognition network in the performance evaluation loop.The deployment of ABFB together with zero-crossing peak amplitude (ZCPA) feature as a front process for radial basis function (RBF) system shows significant improvement in robustness compared with the Bark-scale filter bank.In ABFB,several sub-bands are still more concentrated toward lower frequency but their exact locations are determined by the performance rather than the perceptual criteria.For the ease of optimization,only symmetrical bands are considered here,which still provide satisfactory results. 展开更多
关键词 perceptual filter banks bark scale speaker independent speech recognition systems zero-crossing peak amplitude genetic algorithm
在线阅读 下载PDF
Improved hidden Markov model for speech recognition and POS tagging 被引量:4
2
作者 袁里驰 《Journal of Central South University》 SCIE EI CAS 2012年第2期511-516,共6页
In order to overcome defects of the classical hidden Markov model (HMM), Markov family model (MFM), a new statistical model was proposed. Markov family model was applied to speech recognition and natural language proc... In order to overcome defects of the classical hidden Markov model (HMM), Markov family model (MFM), a new statistical model was proposed. Markov family model was applied to speech recognition and natural language processing. The speaker independently continuous speech recognition experiments and the part-of-speech tagging experiments show that Markov family model has higher performance than hidden Markov model. The precision is enhanced from 94.642% to 96.214% in the part-of-speech tagging experiments, and the work rate is reduced by 11.9% in the speech recognition experiments with respect to HMM baseline system. 展开更多
关键词 hidden Markov model Markov family model speech recognition part-of-speech tagging
在线阅读 下载PDF
Integrated search technique for parameter determination of SVM for speech recognition 被引量:2
3
作者 Teena Mittal R.K.Sharma 《Journal of Central South University》 SCIE EI CAS CSCD 2016年第6期1390-1398,共9页
Support vector machine(SVM)has a good application prospect for speech recognition problems;still optimum parameter selection is a vital issue for it.To improve the learning ability of SVM,a method for searching the op... Support vector machine(SVM)has a good application prospect for speech recognition problems;still optimum parameter selection is a vital issue for it.To improve the learning ability of SVM,a method for searching the optimal parameters based on integration of predator prey optimization(PPO)and Hooke-Jeeves method has been proposed.In PPO technique,population consists of prey and predator particles.The prey particles search the optimum solution and predator always attacks the global best prey particle.The solution obtained by PPO is further improved by applying Hooke-Jeeves method.Proposed method is applied to recognize isolated words in a Hindi speech database and also to recognize words in a benchmark database TI-20 in clean and noisy environment.A recognition rate of 81.5%for Hindi database and 92.2%for TI-20 database has been achieved using proposed technique. 展开更多
关键词 support vector machine (SVM) predator prey optimization speech recognition Mel-frequency cepstral coefficients wavelet packets Hooke-Jeeves method
在线阅读 下载PDF
Auditory-Spectrum Quantization Based Speech Recognition
4
作者 WuYuanqing HaoJie 《通信学报》 EI CSCD 北大核心 1997年第3期26-34,共9页
Auditory┐SpectrumQuantizationBasedSpeechRecognitionWuYuanqingHaoJieLuDajinLiXingZhuXuelong(DepartmentofElect... Auditory┐SpectrumQuantizationBasedSpeechRecognitionWuYuanqingHaoJieLuDajinLiXingZhuXuelong(DepartmentofElectronicEngineering,... 展开更多
关键词 语音识别 电磁波谱 量化 自适应滤波器
在线阅读 下载PDF
Improvement Comparison of Different Lattice-based Discriminative Training Methods in Chinese-monolingual and Chinese-English-bilingual Speech Recognition
5
作者 QIAN Yan-Min SHAN Yu-Xiang +1 位作者 WANG Lin-Fang LIU Jia 《自动化学报》 EI CSCD 北大核心 2012年第7期1162-1168,共7页
关键词 训练方法 语音识别 双语 格子 执行系统 鉴别 基础 英语
在线阅读 下载PDF
基于Speech SDK的语音控制应用程序的设计与实现 被引量:40
6
作者 李禹材 左友东 +1 位作者 郑秀清 王玲 《计算机应用》 CSCD 北大核心 2004年第6期114-116,共3页
分析了微软SpeechSDK5.1里语音应用程序接口(SAPI)的结构和工作原理,提出了语音控制应用程序的设计方法,并以"Z+Z智能教学平台的语音识别接口"的设计为例,展示了这类系统的主框架和关键技术。
关键词 语音识别 COM SAPI 语音控制
在线阅读 下载PDF
人机语言通讯的新进展──Eurospeech’97及其卫星会
7
作者 张家騄 《应用声学》 CSCD 北大核心 1998年第2期44-48,共5页
本文以介绍第五届欧洲言语通讯和技术会议-Eurospeech’97及其卫星会议为主,概述言语科学与技术研究领域的国际学术会议情况以及本领域的最新发展.特别看重介绍语调研讨会、国际言语资料库和语音输入/输出系统评测协调委员会一COCOSD... 本文以介绍第五届欧洲言语通讯和技术会议-Eurospeech’97及其卫星会议为主,概述言语科学与技术研究领域的国际学术会议情况以及本领域的最新发展.特别看重介绍语调研讨会、国际言语资料库和语音输入/输出系统评测协调委员会一COCOSDA以及Eurospeech’97,指出当前围绕口语对话系统而开展的基础研究及实用化方向. 展开更多
关键词 语言识别 语言合成 口语对话 人机语言通讯
在线阅读 下载PDF
A robust feature extraction approach based on an auditory model for classification of speech and expressiveness 被引量:5
8
作者 孙颖 V.Werner 张雪英 《Journal of Central South University》 SCIE EI CAS 2012年第2期504-510,共7页
Based on an auditory model, the zero-crossings with maximal Teager energy operator (ZCMT) feature extraction approach was described, and then applied to speech and emotion recognition. Three kinds of experiments were ... Based on an auditory model, the zero-crossings with maximal Teager energy operator (ZCMT) feature extraction approach was described, and then applied to speech and emotion recognition. Three kinds of experiments were carried out. The first kind consists of isolated word recognition experiments in neutral (non-emotional) speech. The results show that the ZCMT approach effectively improves the recognition accuracy by 3.47% in average compared with the Teager energy operator (TEO). Thus, ZCMT feature can be considered as a noise-robust feature for speech recognition. The second kind consists of mono-lingual emotion recognition experiments by using the Taiyuan University of Technology (TYUT) and the Berlin databases. As the average recognition rate of ZCMT approach is 82.19%, the results indicate that the ZCMT features can characterize speech emotions in an effective way. The third kind consists of cross-lingual experiments with three languages. As the accuracy of ZCMT approach only reduced by 1.45%, the results indicate that the ZCMT features can characterize emotions in a language independent way. 展开更多
关键词 speech recognition emotion recognition zero-crossings Teager energy operator speech database
在线阅读 下载PDF
后挂式骨导助听器听力干预短期效果的临床评估 被引量:1
9
作者 李蕴 张宏征 +5 位作者 蔡洁青 黄美萍 杨璐 闫冰岩 宋依航 郗昕 《听力学及言语疾病杂志》 北大核心 2025年第1期50-54,共5页
目的 比较韶音后挂式骨导助听器对不同类型听力损失患者的听力干预短期效果,探讨其临床应用前景。方法 55例听力损失患者(年龄18~82岁;传导性听力损失9例,感音神经性听力损失15例,混合性听力损失31例;左右耳0.5、1、2、4 kHz四个频率的... 目的 比较韶音后挂式骨导助听器对不同类型听力损失患者的听力干预短期效果,探讨其临床应用前景。方法 55例听力损失患者(年龄18~82岁;传导性听力损失9例,感音神经性听力损失15例,混合性听力损失31例;左右耳0.5、1、2、4 kHz四个频率的骨导纯音听阈均≤60 dB HL)配戴韶音后挂式骨导助听器,分别于配戴助听器前和配戴第14±2 d行声场总体听阈、单音节识别率及安静环境语句识别阈测试,比较配戴助听器前后的结果差异。并于配戴第14±2 d使用IOI-HA问卷对助听器使用效果进行评估。结果 患者配戴后挂式骨导式助听器后声场四个频率平均听阈(39.3±4.9 dB HL)较配戴前(56.5±8.2 dB HL)显著改善,差异有统计学意义(P<0.001)。患者助听前单音节识别率(给声强度:患者助听前双音节言语识别阈减5 dB)为29.8%±11.4%,配戴第14±2 d为72.4%±14.4%,配戴后单音节识别率显著提高,差异有统计学意义(P<0.001)。患者语句识别阈由配戴前的48.6±9.7 dB HL降至34.3±5.6 dB HL,差异有统计学意义(P<0.001)。配戴14±2 d时IOI-HA问卷评估总分平均值为29.0±3.8分。结论 后挂式骨导助听器可显著提高传导性、0.5~4 kHz骨导纯音听阈不超过60 dB HL的混合性及感音神经性听力损失患者的听力及言语识别能力。 展开更多
关键词 听力损失 骨导助听器 言语识别率 语句识别阈 IOI-HA问卷
在线阅读 下载PDF
基于EfficientNetV2-RetNet的端到端中文管制语音识别 被引量:1
10
作者 梁海军 常瀚文 +2 位作者 何一民 赵志伟 孔建国 《电讯技术》 北大核心 2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获... 自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。 展开更多
关键词 空中交通管制 自动语音识别 端到端深度学习 迁移学习
在线阅读 下载PDF
低资源条件下的藏语语音情感识别 被引量:1
11
作者 张维昭 李皓渊 杨鸿武 《信号处理》 北大核心 2025年第9期1558-1569,共12页
近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提... 近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提取与增强、人工标注与校对等步骤,初步构建了藏语情感语音数据集(Tibetan Emotion Speech Dataset-2500,TESD-2500)。该数据集涵盖四种情感类型(生气、悲伤、高兴和中性),共包含2500个语音样本,情感类别与样本数量仍在持续扩充中。然后,设计了一种融合交叉注意力与协同注意力机制的多特征融合语音情感识别模型,采用双向长短期记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)对梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)进行时序建模,以提取语音信号中的动态时序表征;利用AlexNet提取语谱图的时频特征,以捕获语音信号的时频联合分布模式,并通过交叉注意力机制计算上述两类异构特征间的相关性权重;引入大规模预训练模型WavLM提取语音信号的深层特征,并以前述交叉注意力计算的结果作为权重向量,通过协同注意力机制对深层特征进行加权重构;将MFCC时序特征、语谱图时频特征和加权的预训练模型深层特征拼接成多层次特征融合表示,通过全连接层映射至情感类别空间,完成藏语语音情感分类任务。最终实验结果表明,所提出的模型在TESD-2500数据集上取得了76.56%的加权准确率和75.42%的未加权准确率,显著优于基线模型。本文还在IEMOCAP和EmoDB数据集上进行了模型泛化能力测试,在IEMOCAP上达到了74.27%的加权准确率和73.60%的未加权准确率,在EmoDB上达到了92.61%的加权准确率和91.68%的未加权准确率。本文的研究方法与结果亦可为其他低资源语言的语音情感识别研究提供参考。 展开更多
关键词 语音情感识别 低资源 多特征融合 预训练模型 藏语
在线阅读 下载PDF
面向低数据资源的语音识别研究综述 被引量:1
12
作者 许春冬 吴子煜 葛凤培 《计算机工程与应用》 北大核心 2025年第4期59-71,共13页
近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等... 近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等因素给数据的收集造成困难。同时,语音数据的标注需要大量专业人员的参与,导致标注成本很高。因此,语音识别在实际应用中经常面临数据资源不足的问题。在这种低数据资源条件下构建性能优异且稳定的语音识别系统仍是研究难点。简单归纳了语音识别的发展历程,总结了语音识别的基本框架以及常见的国内外开源数据集。围绕低数据资源问题,详细分析了低数据资源的判定方法,继而梳理了四类技术方案,包括数据增强、联邦学习、自监督学习以及元学习,并对它们的性能状况以及优缺点进行了系统的剖析。最后讨论了该研究方向未来潜在的发展趋势和可能面临的问题。 展开更多
关键词 语音识别 低数据资源 数据增强 联邦学习 自监督学习 元学习
在线阅读 下载PDF
基于多特征迁移学习的低资源临高方言语音识别方法
13
作者 王忠 曹春杰 +3 位作者 谢夏 穆罕默德·艾哈迈德·拉扎 陈勇青 陈昱珏 《通信学报》 北大核心 2025年第10期221-232,共12页
针对低资源临高方言语音识别中数据稀缺、字错误率高的问题,提出了一种基于多特征迁移学习的端到端语音识别方法。以TeleSpeech-ASR1.0-large多方言预训练模型为基座,融合梅尔频率倒谱系数、滤波器组能量系数与对数梅尔谱3类互补声学特... 针对低资源临高方言语音识别中数据稀缺、字错误率高的问题,提出了一种基于多特征迁移学习的端到端语音识别方法。以TeleSpeech-ASR1.0-large多方言预训练模型为基座,融合梅尔频率倒谱系数、滤波器组能量系数与对数梅尔谱3类互补声学特征,通过构建Conformer-LAS-CTC联合优化架构,利用深度可分离卷积和多头自注意力机制分别捕捉语音信号的局部特征与全局依赖关系,并设计融合CTC、中间层CTC与注意力机制的多任务损失函数进行联合训练。在总时长为280 h的临高方言与普通话混合语料上的实验结果表明,所提方法的字错误率降低至18.89%,显著优于基线模型,有效缓解了低资源方言面临的数据瓶颈问题,为濒危语言的数字化保护提供了可行的技术路径。 展开更多
关键词 低资源语音识别 迁移学习 CONFORMER 多特征融合 临高方言
在线阅读 下载PDF
基于时间同步递归注意力机制的编码器-解码器语音识别
14
作者 高亮 倪恒 《计算机应用与软件》 北大核心 2025年第10期198-205,共8页
为了保证语音识别的精度与实时性,提出一种基于时间同步递归注意力机制的编码器-解码器语音识别方法。引入无窗口注意机制,不需要多次训练从而节省模型准备时间;使用时间同步递归更新规则而不是基于核函数平滑器的公式来获得上下文向量... 为了保证语音识别的精度与实时性,提出一种基于时间同步递归注意力机制的编码器-解码器语音识别方法。引入无窗口注意机制,不需要多次训练从而节省模型准备时间;使用时间同步递归更新规则而不是基于核函数平滑器的公式来获得上下文向量,进一步通过调整与注意力端点决策相关的标量阈值来控制延迟和性能之间的权衡;通过实验验证该方法既保证了识别精度,也能够实现在线识别。 展开更多
关键词 语音识别 时间同步递归 注意力机制 编码器-解码器
在线阅读 下载PDF
孤独症谱系障碍儿童语音情绪识别的障碍:韵律、语义还是整合困难?——基于三水平元分析的探究
15
作者 陈丽君 靳悦鑫 +1 位作者 曾涵菡 蒋销柳 《心理科学进展》 北大核心 2025年第12期2083-2104,I0014-I0024,共33页
日常社交的言语交流中同时包含着语义线索和韵律线索,孤独症谱系儿童社交中判断说话者的情绪是基于韵律还是语义?对于这一问题的探索有利于了解障碍成因,并为未来干预提供方向,但目前悬而未解且争论激烈。由此,本文对纳入的47项研究(包... 日常社交的言语交流中同时包含着语义线索和韵律线索,孤独症谱系儿童社交中判断说话者的情绪是基于韵律还是语义?对于这一问题的探索有利于了解障碍成因,并为未来干预提供方向,但目前悬而未解且争论激烈。由此,本文对纳入的47项研究(包括93个效应量,3142名被试)使用三水平元分析模型进行分析,并对分类变量(如任务类型、语境文化、年龄段、对照组匹配类型、语音性别、情绪类型、谱系亚型)进行亚组分析,对连续变量(发表年份、样本量和研究质量)进行元回归分析。结果发现,孤独症谱系语音情绪识别表现存在显著缺陷(g=−0.71);整合任务效应量最大(g=−0.90)、韵律任务次之(g=−0.61)、语义任务的效应量最小(g=−0.49);语境文化(p=0.023)、整合任务中材料类型(p<0.001)可调节孤独症儿童语音情绪识别的表现,且任务类型与语境文化、情绪类型、谱系亚型存在交互作用。研究支持了“弱中央统合理论”,研究为理解孤独症社交障碍机制及制定针对性干预措施提供了实证依据。 展开更多
关键词 孤独症谱系障碍 语音情绪识别 语义线索 韵律线索 元分析
在线阅读 下载PDF
基于小样本学习的方言语音识别方法
16
作者 张绍阳 张子卓 +1 位作者 柳永利 解熠 《江苏大学学报(自然科学版)》 北大核心 2025年第6期692-698,共7页
为了快速构建小样本方言语料数据集,改善汉语方言语音识别效果,研究了基于小样本学习的方言语音识别方法.以选取的高质量公开语料为基础,通过抽取、修正、补充、录制等步骤构建方言语料数据集.结合链接时序分类网络和注意力架构的互补... 为了快速构建小样本方言语料数据集,改善汉语方言语音识别效果,研究了基于小样本学习的方言语音识别方法.以选取的高质量公开语料为基础,通过抽取、修正、补充、录制等步骤构建方言语料数据集.结合链接时序分类网络和注意力架构的互补特点及语言模型对端到端语音识别模型的补充作用,构建附加语言模型的基于混合CTC/Attention的端到端语音识别模型.在此基础上,采用基于数据增强和迁移学习的小样本学习方法完成方言语音识别模型的训练.基于关中方言语料进行了试验.结果表明:基于字错率为4.9%的语音识别基础模型进行微调,所得方言模型在测试集上的字错率可低至6.9%,可见小样本方言语料数据集构建方案具有可行性,基于小样本学习的方言语音识别方案具有有效性;由交叉验证试验可得,微调后的方言模型在测试集中识别普通话字错率为27.2%,可见该模型支持跨语种识别. 展开更多
关键词 方言 语音识别 低资源 端到端 深度学习 小样本学习 模型微调
在线阅读 下载PDF
语言类信息资源数字音频建档现状调查与优化策略——以汉语方言为切入
17
作者 王敏凤 《档案管理》 北大核心 2025年第2期111-114,119,共5页
汉语方言是地域文化的重要载体,也是重要的语言资源和文化遗产。汉语方言数字音频建档是汉语方言巨大的文化遗产价值、式微的现实环境和数字化发展趋势下的必然选择。汉语方言数字音频档案资源建设需要国家、语言文字机构、档案部门、... 汉语方言是地域文化的重要载体,也是重要的语言资源和文化遗产。汉语方言数字音频建档是汉语方言巨大的文化遗产价值、式微的现实环境和数字化发展趋势下的必然选择。汉语方言数字音频档案资源建设需要国家、语言文字机构、档案部门、高校和个体民众的通力合作、协同治理,加强方言资源档案建设政策规划,健全方言资源档案法律标准,科学设计方言资源档案内容体系,增强方言资源档案建设流程规范和开发利用,加强方言资源档案建设人才培养,主动融入方言资源保护环境,进而推进语言类信息资源数字音频档案资源建设。 展开更多
关键词 信息资源 方言资源 档案管理 汉语方言 数字化 数字音频 语音识别 开发利用
在线阅读 下载PDF
基于混沌理论和专利挖掘的技术不连续演化特征研究
18
作者 任海英 梁宇航 《情报杂志》 北大核心 2025年第4期181-189,共9页
[研究目的]针对技术不连续演化定量研究的不足,结合混沌理论与专利挖掘方法,揭示技术不连续演化的混沌特征,在技术不连续演化阶段为技术预测提供混沌分析视角。[研究方法]以语音识别技术为例,首先检索专利数据并构建申请数据时间序列,... [研究目的]针对技术不连续演化定量研究的不足,结合混沌理论与专利挖掘方法,揭示技术不连续演化的混沌特征,在技术不连续演化阶段为技术预测提供混沌分析视角。[研究方法]以语音识别技术为例,首先检索专利数据并构建申请数据时间序列,通过关联维数和李亚普洛夫指数识别技术演化系统的混沌特征及其局部混沌期。之后,对不同时间窗口的数据构建LDA主题模型和共词网络,分析技术主题及相关节点在局部混沌期前、中、后的演化特征,并预测潜在新兴技术。[研究结果/结论]实验结果表明,语音识别技术演化过程中,技术不连续演化阶段与局部混沌期高度重合,为“混沌是技术不连续演化的内在特征”提供实证依据。此外,新兴技术在局部混沌期内产生,并表现为技术主题的稳定发展和相关节点中心性的提升。不仅反映新兴技术对语音识别技术系统的深远影响,而且揭示其未来演化方向。 展开更多
关键词 混沌理论 专利文本 专利挖掘 技术演化 主题模型 共词网络 语音识别技术 关联维数 李亚普洛夫指数
在线阅读 下载PDF
基于双通道时空融合注意力网络的多特征语音情绪识别模型 被引量:1
19
作者 周启航 丁飞 +2 位作者 李蓉 王秉坤 张学军 《中国测试》 北大核心 2025年第7期1-8,37,共9页
针对Transformer在语音情绪识别中对时序特征和局部信息的提取能力存在不足的问题,文章提出双通道时空融合注意力网络的多特征语音情绪识别模型。该模型通过两个独立的通道分别处理不同类型的声学特征:BiLSTM-Transformer通道主要用于... 针对Transformer在语音情绪识别中对时序特征和局部信息的提取能力存在不足的问题,文章提出双通道时空融合注意力网络的多特征语音情绪识别模型。该模型通过两个独立的通道分别处理不同类型的声学特征:BiLSTM-Transformer通道主要用于捕捉时序依赖性和全局上下文信息,而2D-CNN通道则专注于提取频谱图和梅尔谱图中的空间特征。同时,文章设计一种多特征融合策略,将频谱图、梅尔谱图与eGeMAPS特征集有效融合,从而提升模型的情感识别能力。在CASIA和EMO-DB两个数据集上开展实验,分别达到93.41%和92.46%的准确率,结果优于现有的基于单一声学特征的方法,表明所提的多特征融合策略能够有效提升模型的情感识别性能。 展开更多
关键词 语音情绪识别 双向长短时记忆网络 多特征融合 TRANSFORMER
在线阅读 下载PDF
基于TCN-Bi-GRU和交叉注意Transformer的多模态情感识别 被引量:2
20
作者 李嘉华 陈景霞 白义民 《陕西科技大学学报》 北大核心 2025年第1期161-168,共8页
多模态语音情感识别是近年来在自然语言处理和机器学习领域备受关注的研究方向之一,不同模态的数据存在异构性和不一致性,将不同模态信息有效地融合起来并学习到高效的表示形式是一个挑战.为此,本文提出了一种新的基于时序信息建模和交... 多模态语音情感识别是近年来在自然语言处理和机器学习领域备受关注的研究方向之一,不同模态的数据存在异构性和不一致性,将不同模态信息有效地融合起来并学习到高效的表示形式是一个挑战.为此,本文提出了一种新的基于时序信息建模和交叉注意力的多模态语音情感识别模型.首先采用时间卷积网络(Time Convolutional Network,TCN)提取语音、文本和视频数据的深层时序特征,使用双向门控递归单元(Bidirectional Gated Recurrent Unit,Bi-GRU)捕捉序列数据的上下文信息,提高模型对序列数据的理解能力.然后基于交叉注意力机制和Transformer构建多模态融合网络,用于挖掘并捕获音频、文本和视觉特征之间交互的情感信息.此外,在训练过程中引入弹性网络正则化(Elastic Net Regularization)防止模型过拟合,最后完成情感识别任务.在IEMOCAP数据集上,针对快乐、悲伤、愤怒和中性四类情感的分类实验中,准确率分别为87.6%、84.1%、87.5%、71.5%,F1值分别为85.1%、84.3%、87.4%、71.4%.加权平均精度为80.75%,未加权平均精度为82.80%.结果表明,所提方法实现了较好的分类性能. 展开更多
关键词 语音识别 多模态情感识别 时间卷积网络 交叉注意力机制 弹性网络
在线阅读 下载PDF
上一页 1 2 79 下一页 到第
使用帮助 返回顶部