期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于多模态视听融合的Transformer语音识别算法研究 被引量:2
1
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 TRANSFORMER 动态权重分配机制
在线阅读 下载PDF
基于发音特征的音视频融合语音识别模型 被引量:2
2
作者 吴鹏 蒋冬梅 +2 位作者 王风娜 Hichem SAHLI Werner VERHELST 《计算机工程》 CAS CSCD 北大核心 2011年第22期268-269,272,共3页
构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得... 构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得到比基于状态的同步和异步DBN模型以及音频单流模型更高的识别率,对噪声也具有较好的鲁棒性。 展开更多
关键词 动态贝叶斯网络 发音特征 音视频融合 语音识别 异步
在线阅读 下载PDF
基于多流多状态动态贝叶斯网络的音视频连续语音识别 被引量:1
3
作者 吕国云 蒋冬梅 +4 位作者 张艳宁 赵荣椿 H Sahli Ilse Ravyse W Verhelst 《电子与信息学报》 EI CSCD 北大核心 2008年第12期2906-2911,共6页
语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS... 语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构。本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别。实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%。 展开更多
关键词 语音识别 动态贝叶斯网络 音视频 多流异步
在线阅读 下载PDF
双模型语音识别中的听视觉合成和模型同步异步性实验研究 被引量:3
4
作者 谢磊 蒋冬梅 +4 位作者 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第2期171-175,共5页
研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步... 研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。 展开更多
关键词 语音识别 双模型语音识别 听觉视觉合成 模型同步异步性
在线阅读 下载PDF
自适应视听信息融合用于抗噪语音识别 被引量:1
5
作者 梁冰 陈德运 程慧 《控制理论与应用》 EI CAS CSCD 北大核心 2011年第10期1461-1466,共6页
为了提高噪音环境中语音识别的准确性和鲁棒性,提出了基于自适应视听信息融合的抗噪语音识别方法,视听信息在识别过程中具有变化的权重,动态的自适应于环境输入的信噪比.根据信噪比和反馈的识别性能,通过学习自动机计算视觉信息的最优权... 为了提高噪音环境中语音识别的准确性和鲁棒性,提出了基于自适应视听信息融合的抗噪语音识别方法,视听信息在识别过程中具有变化的权重,动态的自适应于环境输入的信噪比.根据信噪比和反馈的识别性能,通过学习自动机计算视觉信息的最优权重;根据视听信息的特征向量,利用隐马尔科夫模型进行视听信息的模式匹配,并根据最优权重组合视觉和声音隐马尔科夫模型的决策,获得最终的识别结果.实验结果表明,在各种噪音水平下,自适应权重比不变权重的视听信息融合的语音识别性能更优. 展开更多
关键词 视听信息融合 语音识别 自适应权重 学习自动机 隐马尔科夫模型
在线阅读 下载PDF
一种基于MASM的口形轮廓特征提取方法及听视觉语音识别 被引量:1
6
作者 谢磊 冯伟 赵荣椿 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第5期674-678,共5页
提出了一种用于听视觉语音识别的基于 MASM的口形轮廓提取方法 ,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。还引入了一种口形轮廓的平滑修正方法 ,该方法利用口形连续变化的特点 ,对错误轮廓进行修正。实验证... 提出了一种用于听视觉语音识别的基于 MASM的口形轮廓提取方法 ,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。还引入了一种口形轮廓的平滑修正方法 ,该方法利用口形连续变化的特点 ,对错误轮廓进行修正。实验证明 ,利用该方法提取轮廓的准确率比常规 ASM模型高出 2 0个百分点 ;将该口形轮廓特征引入到听视觉语音识别中 。 展开更多
关键词 语音识别 听视觉语音识别 ASM MASM 口形轮廓提取
在线阅读 下载PDF
基于三流DBN模型的听视觉情感识别 被引量:1
7
作者 吕兰兰 蒋冬梅 +2 位作者 王风娜 Hichem Sahli Werner Verhelst 《计算机工程》 CAS CSCD 2012年第5期161-162,166,共3页
为更好地对听视觉情感信息之间的关联关系进行建模,提出一种三流混合动态贝叶斯网络情感识别模型(T_AsyDBN)。采用MFCC特征及基于基频和短时能量的局域韵律特征作为听觉输入流,在状态层同步。将面部几何特征和面部动作参数特征作为视觉... 为更好地对听视觉情感信息之间的关联关系进行建模,提出一种三流混合动态贝叶斯网络情感识别模型(T_AsyDBN)。采用MFCC特征及基于基频和短时能量的局域韵律特征作为听觉输入流,在状态层同步。将面部几何特征和面部动作参数特征作为视觉输入流,与听觉输入流在状态层异步。实验结果表明,该模型优于有状态异步约束的听视觉双流DBN模型,6种情感的平均识别率从52.14%提高到63.71%。 展开更多
关键词 动态贝叶斯网络 听视觉融合 情感识别 异步约束 权重
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部