检索结果-维普期刊中文期刊服务平台

基于多模态视听融合的Transformer语音识别算法研究被引量：2: 1; 作者赵小芬彭朋《传感器与微系统》北大核心 2025年第2期48-52,共5页; 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 展开更多; 关键词多模态视听融合语音识别 TRANSFORMER 动态权重分配机制; 在线阅读下载PDF 职称材料

基于发音特征的音视频融合语音识别模型被引量：2: 2; 作者吴鹏蒋冬梅 +2 位作者王风娜 Hichem SAHLI Werner VERHELST 《计算机工程》 CAS CSCD 北大核心 2011年第22期268-269,272,共3页; 构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得... 展开更多; 关键词动态贝叶斯网络发音特征音视频融合语音识别异步; 在线阅读下载PDF 职称材料

基于多流多状态动态贝叶斯网络的音视频连续语音识别被引量：1: 3; 作者吕国云蒋冬梅 +4 位作者张艳宁赵荣椿 H Sahli Ilse Ravyse W Verhelst 《电子与信息学报》 EI CSCD 北大核心 2008年第12期2906-2911,共6页; 语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS... 展开更多; 关键词语音识别动态贝叶斯网络音视频多流异步; 在线阅读下载PDF 职称材料

双模型语音识别中的听视觉合成和模型同步异步性实验研究被引量：3: 4; 作者谢磊蒋冬梅 +4 位作者 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第2期171-175,共5页; 研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步... 展开更多; 关键词语音识别双模型语音识别听觉视觉合成模型同步异步性; 在线阅读下载PDF 职称材料

自适应视听信息融合用于抗噪语音识别被引量：1: 5; 作者梁冰陈德运程慧《控制理论与应用》 EI CAS CSCD 北大核心 2011年第10期1461-1466,共6页; 为了提高噪音环境中语音识别的准确性和鲁棒性,提出了基于自适应视听信息融合的抗噪语音识别方法,视听信息在识别过程中具有变化的权重,动态的自适应于环境输入的信噪比.根据信噪比和反馈的识别性能,通过学习自动机计算视觉信息的最优权... 展开更多; 关键词视听信息融合语音识别自适应权重学习自动机隐马尔科夫模型; 在线阅读下载PDF 职称材料

一种基于MASM的口形轮廓特征提取方法及听视觉语音识别被引量：1: 6; 作者谢磊冯伟赵荣椿《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第5期674-678,共5页; 提出了一种用于听视觉语音识别的基于 MASM的口形轮廓提取方法 ,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。还引入了一种口形轮廓的平滑修正方法 ,该方法利用口形连续变化的特点 ,对错误轮廓进行修正。实验证... 展开更多; 关键词语音识别听视觉语音识别 ASM MASM 口形轮廓提取; 在线阅读下载PDF 职称材料

基于三流DBN模型的听视觉情感识别被引量：1: 7; 作者吕兰兰蒋冬梅 +2 位作者王风娜 Hichem Sahli Werner Verhelst 《计算机工程》 CAS CSCD 2012年第5期161-162,166,共3页; 为更好地对听视觉情感信息之间的关联关系进行建模,提出一种三流混合动态贝叶斯网络情感识别模型(T_AsyDBN)。采用MFCC特征及基于基频和短时能量的局域韵律特征作为听觉输入流,在状态层同步。将面部几何特征和面部动作参数特征作为视觉... 展开更多; 关键词动态贝叶斯网络听视觉融合情感识别异步约束权重; 在线阅读下载PDF 职称材料

题名基于多模态视听融合的Transformer语音识别算法研究被引量：2: 1; 作者赵小芬彭朋; 机构西京学院计算机学院陕西科技大学电气与控制工程学院; 出处《传感器与微系统》北大核心 2025年第2期48-52,共5页; 基金国家自然科学基金资助项目(52173263) 陕西省自然科学基金青年项目(2022JQ-601) 西京学院科研基金资助项目(XJ230201)。; 文摘针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。; 关键词多模态视听融合语音识别 TRANSFORMER 动态权重分配机制; Keywords multimodal audio-visual fusion speech recognition Transformer dynamic weight allocation mecha-nism; 分类号 TN912.3 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名基于发音特征的音视频融合语音识别模型被引量：2: 2; 作者吴鹏蒋冬梅王风娜 Hichem SAHLI Werner VERHELST; 机构西北工业大学陕西省语音与图像信息处理重点实验室布鲁塞尔自由大学电子与信息工程系; 出处《计算机工程》 CAS CSCD 北大核心 2011年第22期268-269,272,共3页; 基金国家自然科学基金资助项目(60703104) 陕西省自然科学基金资助项目(SJ08F28) 西北工业大学基础研究基金资助项目(JC200943); 文摘构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得到比基于状态的同步和异步DBN模型以及音频单流模型更高的识别率,对噪声也具有较好的鲁棒性。; 关键词动态贝叶斯网络发音特征音视频融合语音识别异步; Keywords Dynamic Bayesian Network（DBN） articulatory feature audio visual fusion speech recognition asynchronous; 分类号 TP391.42 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于多流多状态动态贝叶斯网络的音视频连续语音识别被引量：1: 3; 作者吕国云蒋冬梅张艳宁赵荣椿 H Sahli Ilse Ravyse W Verhelst; 机构西北工业大学计算机学院布鲁塞尔自由大学电子与信息处理系; 出处《电子与信息学报》 EI CSCD 北大核心 2008年第12期2906-2911,共6页; 基金中国科技部与比利时弗拉芒大区科技合作项目([2004]487) 西北工业大学英才培养计划项目(04XD0102)资助课题; 文摘语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构。本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别。实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%。; 关键词语音识别动态贝叶斯网络音视频多流异步; Keywords speech recognition Dynamic Bayesian Network （DBN） audio-visual Multi-stream asynchrony; 分类号 TP391.42 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名双模型语音识别中的听视觉合成和模型同步异步性实验研究被引量：3: 4; 作者谢磊蒋冬梅 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis; 机构西北工业大学计算机科学与工程系布鲁塞尔自由大学电子与信息处理系; 出处《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第2期171-175,共5页; 基金中国科技部与比利时弗拉芒大区科技合作项目 (国科外字 19990 2 0 9); 文摘研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。; 关键词语音识别双模型语音识别听觉视觉合成模型同步异步性; Keywords speech recognition, audio visual fusion, model asynchrony; 分类号 TN912.3 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名自适应视听信息融合用于抗噪语音识别被引量：1: 5; 作者梁冰陈德运程慧; 机构大连理工大学创新实验学院哈尔滨理工大学计算机科学与技术学院哈尔滨工程大学计算机科学与技术学院; 出处《控制理论与应用》 EI CAS CSCD 北大核心 2011年第10期1461-1466,共6页; 基金国家自然科学基金资助项目(60572153) 黑龙江省博士后基金资助项目(LBH-Z09102) +1 种基金中央高校基本科研业务费专项资金资助项目(DUT11RC(3)54); 文摘为了提高噪音环境中语音识别的准确性和鲁棒性,提出了基于自适应视听信息融合的抗噪语音识别方法,视听信息在识别过程中具有变化的权重,动态的自适应于环境输入的信噪比.根据信噪比和反馈的识别性能,通过学习自动机计算视觉信息的最优权重;根据视听信息的特征向量,利用隐马尔科夫模型进行视听信息的模式匹配,并根据最优权重组合视觉和声音隐马尔科夫模型的决策,获得最终的识别结果.实验结果表明,在各种噪音水平下,自适应权重比不变权重的视听信息融合的语音识别性能更优.; 关键词视听信息融合语音识别自适应权重学习自动机隐马尔科夫模型; Keywords audio-visual information fusion speech recognition adaptive weights leaming automata（LA） hidden Markov model; 分类号 TP301.1 [自动化与计算机技术—计算机系统结构] TN912.34 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名一种基于MASM的口形轮廓特征提取方法及听视觉语音识别被引量：1: 6; 作者谢磊冯伟赵荣椿; 机构西北工业大学计算机学院; 出处《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第5期674-678,共5页; 基金中国科技部与比利时弗拉芒大区国际科技合作项目 (国科外 19990 2 0 9号 )资助; 文摘提出了一种用于听视觉语音识别的基于 MASM的口形轮廓提取方法 ,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。还引入了一种口形轮廓的平滑修正方法 ,该方法利用口形连续变化的特点 ,对错误轮廓进行修正。实验证明 ,利用该方法提取轮廓的准确率比常规 ASM模型高出 2 0个百分点 ;将该口形轮廓特征引入到听视觉语音识别中。; 关键词语音识别听视觉语音识别 ASM MASM 口形轮廓提取; Keywords speech recognition, audio visual speech recognition, ASM(Active Shape model), MASM(Multiple Active Shape model), lip contour extraction; 分类号 TN912.3 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名基于三流DBN模型的听视觉情感识别被引量：1: 7; 作者吕兰兰蒋冬梅王风娜 Hichem Sahli Werner Verhelst; 机构西北工业大学陕西省语音与图像信息处理重点实验室布鲁塞尔自由大学电子与信息工程系; 出处《计算机工程》 CAS CSCD 2012年第5期161-162,166,共3页; 基金国家自然科学基金资助项目(60703104) 陕西省自然科学基金资助项目(SJ08F28) 西北工业大学基础研究基金资助项目(JC200943); 文摘为更好地对听视觉情感信息之间的关联关系进行建模,提出一种三流混合动态贝叶斯网络情感识别模型(T_AsyDBN)。采用MFCC特征及基于基频和短时能量的局域韵律特征作为听觉输入流,在状态层同步。将面部几何特征和面部动作参数特征作为视觉输入流,与听觉输入流在状态层异步。实验结果表明,该模型优于有状态异步约束的听视觉双流DBN模型,6种情感的平均识别率从52.14%提高到63.71%。; 关键词动态贝叶斯网络听视觉融合情感识别异步约束权重; Keywords Dynamic Bayesian Networks（DBN） audio visual fusion emotion recognition asynchrony constraint weight; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于多模态视听融合的Transformer语音识别算法研究	赵小芬彭朋	《传感器与微系统》北大核心	2025	2	在线阅读下载PDF 职称材料
2	基于发音特征的音视频融合语音识别模型	吴鹏蒋冬梅王风娜 Hichem SAHLI Werner VERHELST	《计算机工程》 CAS CSCD 北大核心	2011	2	在线阅读下载PDF 职称材料
3	基于多流多状态动态贝叶斯网络的音视频连续语音识别	吕国云蒋冬梅张艳宁赵荣椿 H Sahli Ilse Ravyse W Verhelst	《电子与信息学报》 EI CSCD 北大核心	2008	1	在线阅读下载PDF 职称材料
4	双模型语音识别中的听视觉合成和模型同步异步性实验研究	谢磊蒋冬梅 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis	《西北工业大学学报》 EI CAS CSCD 北大核心	2004	3	在线阅读下载PDF 职称材料
5	自适应视听信息融合用于抗噪语音识别	梁冰陈德运程慧	《控制理论与应用》 EI CAS CSCD 北大核心	2011	1	在线阅读下载PDF 职称材料
6	一种基于MASM的口形轮廓特征提取方法及听视觉语音识别	谢磊冯伟赵荣椿	《西北工业大学学报》 EI CAS CSCD 北大核心	2004	1	在线阅读下载PDF 职称材料
7	基于三流DBN模型的听视觉情感识别	吕兰兰蒋冬梅王风娜 Hichem Sahli Werner Verhelst	《计算机工程》 CAS CSCD	2012	1	在线阅读下载PDF 职称材料