检索结果-维普期刊中文期刊服务平台

基于递归神经网络的语音识别快速解码算法被引量：17: 1; 作者张舸张鹏远 +1 位作者潘接林颜永红《电子与信息学报》 EI CSCD 北大核心 2017年第4期930-937,共8页; 递归神经网络(Recurrent Neural Network,RNN)如今已经广泛用于自动语音识别(Automatic Speech Recognition,ASR)的声学建模。虽然其较传统的声学建模方法有很大优势,但相对较高的计算复杂度限制了这种神经网络的应用,特别是在实时应用... 展开更多; 关键词语音识别递归神经网络解码器跳帧计算; 在线阅读下载PDF 职称材料

基于加权有限状态机的动态匹配词图生成算法被引量：4: 2; 作者郭宇弘黎塔 +2 位作者肖业鸣潘接林颜永红《电子与信息学报》 EI CSCD 北大核心 2014年第1期140-146,共7页; 由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论... 展开更多; 关键词自动语音识别加权有限状态机词图生成关键词检索; 在线阅读下载PDF 职称材料

语音识别中深度神经网络目标值优化被引量：4: 3; 作者陈梦喆张晴晴 +1 位作者潘接林颜永红《四川大学学报（工程科学版）》 EI CAS CSCD 北大核心 2016年第1期166-172,共7页; 训练深度神经网络声学模型时,所采用的强制对齐得到的目标值存在无法精准地表示出语音实际状况的问题。针对这一问题,提出一种利用前后向算法得到非0-1分布目标值的方法。由于用于强制对齐的模型可能与处理语句不完全匹配,以及发音连续... 展开更多; 关键词语音识别深度神经网络前后向算法目标值优化; 在线阅读下载PDF 职称材料

交叉对数似然度和贝叶斯信息判据的说话人聚类算法被引量：3: 4; 作者刘倓倓潘接林 +1 位作者索洪斌颜永红《声学技术》 CSCD 北大核心 2007年第6期1181-1185,共5页; 说话人分段聚类的任务是将一段语音中由同一说话人发出的语音聚合起来。文中提出了一种基于交叉对数似然度(Cross Log-likelihood Ratio,CLR)和贝叶斯信息判据(Bayesian information criterion,BIC)相结合的说话人聚类算法。交叉对数似... 展开更多; 关键词说话人聚类交叉对数似然度贝叶斯判据聚类; 在线阅读下载PDF 职称材料

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度被引量：1: 5; 作者高兴龙潘接林颜永红《电子与信息学报》 EI CSCD 北大核心 2014年第8期1852-1858,共7页; 鉴于自动语音识别(ASR)中置信度估计困难的问题,该文提出一种基于多知识源融合的策略来提高置信度的鉴别能力。具体做法是,首先选择关于识别结果的声学层、语言层和语义层等不同层次的信息,然后通过实验确定这些信息不同的组合方式,并... 展开更多; 关键词语音识别置信度估计多知识源融合隐藏单元条件随机场网格重估; 在线阅读下载PDF 职称材料

嵌入式语音识别中一种高效的图搜索算法: 6; 作者黎塔蔡尚 +2 位作者赵庆卫潘接林颜永红《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2009年第S1期215-218,共4页; 为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可... 展开更多; 关键词嵌入式语音识别双层图搜索单词拼读系统; 在线阅读下载PDF 职称材料

题名基于递归神经网络的语音识别快速解码算法被引量：17: 1; 作者张舸张鹏远潘接林颜永红; 机构中国科学院声学研究所语言声学与内容理解重点实验室中国科学院大学中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室; 出处《电子与信息学报》 EI CSCD 北大核心 2017年第4期930-937,共8页; 基金国家自然科学基金(U1536117 11590770-4) +2 种基金 2016YFB0801203) 新疆维吾尔自治区科技重大专项(2016A03007-1)~~; 文摘递归神经网络(Recurrent Neural Network,RNN)如今已经广泛用于自动语音识别(Automatic Speech Recognition,ASR)的声学建模。虽然其较传统的声学建模方法有很大优势,但相对较高的计算复杂度限制了这种神经网络的应用,特别是在实时应用场景中。由于递归神经网络采用的输入特征通常有较长的上下文,因此利用重叠信息来同时降低声学后验和令牌传递的时间复杂度成为可能。该文介绍了一种新的解码器结构,通过有规律抛弃存在重叠的帧来获得解码过程中的计算开销降低。特别地,这种方法可以直接用于原始的递归神经网络模型,只需对隐马尔可夫模型(Hidden Markov Model,HMM)结构做小的变动,这使得这种方法具有很高的灵活性。该文以时延神经网络为例验证了所提出的方法,证明该方法能够在精度损失相对较小的情况下取得2~4倍的加速比。; 关键词语音识别递归神经网络解码器跳帧计算; Keywords Speech recognition Recurrent Neural Network （RNN） Decoder Frame skipping; 分类号 TP391.42 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于加权有限状态机的动态匹配词图生成算法被引量：4: 2; 作者郭宇弘黎塔肖业鸣潘接林颜永红; 机构中国科学院语言声学与内容理解重点实验室; 出处《电子与信息学报》 EI CSCD 北大核心 2014年第1期140-146,共7页; 基金国家自然科学基金(10925419 90920302 +8 种基金 61072124 11074275 11161140319 91120001 61271426) XDA06030500) 国家863计划项目(2012AA012503) 中科院重点部署项目(KGZD-EW-103-2)资助课题; 文摘由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论上分析了WFST解码音素图和词图的可转换关系,然后提出了字典的动态音素匹配方法解决了WFST网络中词尾时间点对齐的问题,最后通过令牌传递的遍历方法生成了词图。同时,考虑到计算量优化,在令牌传递过程中引入了剪枝算法,使音素图转词图的耗时不到解码耗时的3%。得到的词图,不仅可以用于语言模型重打分,由于含有精确的词尾时间点,还可以直接应用到关键词检索系统中。实验结果表明,该文的词图生成算法具有较高的计算效率;和已有动态解码器的词图相比,词图中包含更多解码信息,在大词汇连续语音识别的重打分结果和关键词检索中都能取得更好的性能。; 关键词自动语音识别加权有限状态机词图生成关键词检索; Keywords Automatic speech recognition Weighted Finite State Transducer （WFST） Lattice generation Keyword spotting; 分类号 TP391.42 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名语音识别中深度神经网络目标值优化被引量：4: 3; 作者陈梦喆张晴晴潘接林颜永红; 机构中国科学院语言声学与内容理解重点实验室; 出处《四川大学学报（工程科学版）》 EI CAS CSCD 北大核心 2016年第1期166-172,共7页; 基金国家自然科学基金资助项目(11161140319 91120001 +4 种基金 61271426) XDA06030500) 中科院重点部署项目资助(KGZD-EW-103-2); 文摘训练深度神经网络声学模型时,所采用的强制对齐得到的目标值存在无法精准地表示出语音实际状况的问题。针对这一问题,提出一种利用前后向算法得到非0-1分布目标值的方法。由于用于强制对齐的模型可能与处理语句不完全匹配,以及发音连续性导致的过渡边界难以分离等问题,强制对齐得到的目标值存在不合理性。新的目标值可以表示某一帧以一定概率属于邻近各状态的分布情况,更详细地描述建模单元之间的过渡,进一步还原语音的原貌,提升模型的鲁棒性。同时,为寻求模型鲁棒性和建模单元区分度之间的平衡,对算法得到的目标值进行加窗处理。在中文客服问答领域进行实验,在小数据量上验证了目标值对于训练的较大影响,并且选取窗长宽度这一参数。最后将训练数据量提升至60、80以及100 h,结果显示,新的目标值优化方法训练得到的模型在识别性能上获得提升,相对字错误率下降为1.10%~3.65%。多组实验验证新的目标值优化方法对模型训练有一定效果,在训练数据量上升的情况下依然具有有效性。; 关键词语音识别深度神经网络前后向算法目标值优化; Keywords speech recognition deep neural network forward-backward algorithm target optimization; 分类号 TP391.42 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名交叉对数似然度和贝叶斯信息判据的说话人聚类算法被引量：3: 4; 作者刘倓倓潘接林索洪斌颜永红; 机构中科院声学所中科信利实验室; 出处《声学技术》 CSCD 北大核心 2007年第6期1181-1185,共5页; 基金国家973计划(2004CB318106) 自然科学基金(10574140 +1 种基金 60535030) 北京市科委(Z0005189040391); 文摘说话人分段聚类的任务是将一段语音中由同一说话人发出的语音聚合起来。文中提出了一种基于交叉对数似然度(Cross Log-likelihood Ratio,CLR)和贝叶斯信息判据(Bayesian information criterion,BIC)相结合的说话人聚类算法。交叉对数似然度用于计算语音段间的相似度;而贝叶斯判据则提供了一种比较适当的停止聚类的准则,该算法结合了两种方法的优点,在无监督说话人聚类中得到了较好的应用。实验结果表明,基于交叉对数似然度和贝叶斯判据的说话人聚类方法,比单纯利用交叉对数似然度的方法准确度高。; 关键词说话人聚类交叉对数似然度贝叶斯判据聚类; Keywords speaker diarization, CLR, BIC, clustering.; 分类号 TN912.3 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度被引量：1: 5; 作者高兴龙潘接林颜永红; 机构中国科学院声学研究所; 出处《电子与信息学报》 EI CSCD 北大核心 2014年第8期1852-1858,共7页; 基金国家自然科学基金(10925419 90920302 +8 种基金 61072124 11074275 11161140319 91120001 61271426) XDA06030500) 国家863计划项目(2012AA012503) 中科院重点部署项目(KGZD-EW-103-2)资助课题; 文摘鉴于自动语音识别(ASR)中置信度估计困难的问题,该文提出一种基于多知识源融合的策略来提高置信度的鉴别能力。具体做法是,首先选择关于识别结果的声学层、语言层和语义层等不同层次的信息,然后通过实验确定这些信息不同的组合方式,并以此为特征在隐藏单元条件随机场(Hidden-units Conditional Random Fields,HuCRFs)框架下计算识别结果的条件概率。最后将HuCRFs条件概率作为语音识别结果置信度的新的估计。实验首先证明了HuCRFs条件概率是比归一化的网格后验概率鉴别能力更强的一种置信度估计方法。同时基于HuCRFs条件概率置信度,对解码器一遍识别得到的网格重新搜索最佳候选序列,取得了相对一遍识别最佳候选序列绝对近2%的字错误率(CER)下降。同时,该文也对比了基于HuCRFs条件概率搜索的最佳候选序列和基于长语言模型网格重估的最佳候选序列的性能,进一步证明了使用HuCRFs条件概率作为置信度估计是一种更好的选择。; 关键词语音识别置信度估计多知识源融合隐藏单元条件随机场网格重估; Keywords Speech recognition confidence measure Multi-source knowledge combination Hidden-units Conditional Random Fields（HuCRFs） Lattice rescoring; 分类号 TP391.42 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名嵌入式语音识别中一种高效的图搜索算法: 6; 作者黎塔蔡尚赵庆卫潘接林颜永红; 机构中国科学院声学研究所中科信利语音实验室; 出处《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2009年第S1期215-218,共4页; 基金国家高技术研究发展计划(863计划)资助项目(2006AA010102) 国家科技支撑计划资助项目(2008BAI50B00) +3 种基金 60875014 60535030); 文摘为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可以使语音识别的解码过程更加紧凑有效.在对比实验中,传统的基于前缀合并的状态树搜索算法的大词表嵌入式单词拼读系统作为基线系统.实验结果表明,与基线系统相比,所提出的双层图搜索算法在系统解码速度相对提高10%的情况下,系统的动态内存占用仅为基线的8%.通过使用所提出的双层图搜索算法,大大提高了大词表嵌入式单词拼读系统的效率,使其更适用于大多数嵌入式平台.; 关键词嵌入式语音识别双层图搜索单词拼读系统; Keywords embedded speech recognition two-layer graph search spell word system; 分类号 TN912.34 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于递归神经网络的语音识别快速解码算法	张舸张鹏远潘接林颜永红	《电子与信息学报》 EI CSCD 北大核心	2017	17	在线阅读下载PDF 职称材料
2	基于加权有限状态机的动态匹配词图生成算法	郭宇弘黎塔肖业鸣潘接林颜永红	《电子与信息学报》 EI CSCD 北大核心	2014	4	在线阅读下载PDF 职称材料
3	语音识别中深度神经网络目标值优化	陈梦喆张晴晴潘接林颜永红	《四川大学学报（工程科学版）》 EI CAS CSCD 北大核心	2016	4	在线阅读下载PDF 职称材料
4	交叉对数似然度和贝叶斯信息判据的说话人聚类算法	刘倓倓潘接林索洪斌颜永红	《声学技术》 CSCD 北大核心	2007	3	在线阅读下载PDF 职称材料
5	基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度	高兴龙潘接林颜永红	《电子与信息学报》 EI CSCD 北大核心	2014	1	在线阅读下载PDF 职称材料
6	嵌入式语音识别中一种高效的图搜索算法	黎塔蔡尚赵庆卫潘接林颜永红	《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心	2009	0	在线阅读下载PDF 职称材料