期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于递归神经网络的语音识别快速解码算法 被引量:17
1
作者 张舸 张鹏远 +1 位作者 潘接林 颜永红 《电子与信息学报》 EI CSCD 北大核心 2017年第4期930-937,共8页
递归神经网络(Recurrent Neural Network,RNN)如今已经广泛用于自动语音识别(Automatic Speech Recognition,ASR)的声学建模。虽然其较传统的声学建模方法有很大优势,但相对较高的计算复杂度限制了这种神经网络的应用,特别是在实时应用... 递归神经网络(Recurrent Neural Network,RNN)如今已经广泛用于自动语音识别(Automatic Speech Recognition,ASR)的声学建模。虽然其较传统的声学建模方法有很大优势,但相对较高的计算复杂度限制了这种神经网络的应用,特别是在实时应用场景中。由于递归神经网络采用的输入特征通常有较长的上下文,因此利用重叠信息来同时降低声学后验和令牌传递的时间复杂度成为可能。该文介绍了一种新的解码器结构,通过有规律抛弃存在重叠的帧来获得解码过程中的计算开销降低。特别地,这种方法可以直接用于原始的递归神经网络模型,只需对隐马尔可夫模型(Hidden Markov Model,HMM)结构做小的变动,这使得这种方法具有很高的灵活性。该文以时延神经网络为例验证了所提出的方法,证明该方法能够在精度损失相对较小的情况下取得2~4倍的加速比。 展开更多
关键词 语音识别 递归神经网络 解码器 跳帧计算
在线阅读 下载PDF
基于加权有限状态机的动态匹配词图生成算法 被引量:4
2
作者 郭宇弘 黎塔 +2 位作者 肖业鸣 潘接林 颜永红 《电子与信息学报》 EI CSCD 北大核心 2014年第1期140-146,共7页
由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论... 由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论上分析了WFST解码音素图和词图的可转换关系,然后提出了字典的动态音素匹配方法解决了WFST网络中词尾时间点对齐的问题,最后通过令牌传递的遍历方法生成了词图。同时,考虑到计算量优化,在令牌传递过程中引入了剪枝算法,使音素图转词图的耗时不到解码耗时的3%。得到的词图,不仅可以用于语言模型重打分,由于含有精确的词尾时间点,还可以直接应用到关键词检索系统中。实验结果表明,该文的词图生成算法具有较高的计算效率;和已有动态解码器的词图相比,词图中包含更多解码信息,在大词汇连续语音识别的重打分结果和关键词检索中都能取得更好的性能。 展开更多
关键词 自动语音识别 加权有限状态机 词图生成 关键词检索
在线阅读 下载PDF
语音识别中深度神经网络目标值优化 被引量:4
3
作者 陈梦喆 张晴晴 +1 位作者 潘接林 颜永红 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2016年第1期166-172,共7页
训练深度神经网络声学模型时,所采用的强制对齐得到的目标值存在无法精准地表示出语音实际状况的问题。针对这一问题,提出一种利用前后向算法得到非0-1分布目标值的方法。由于用于强制对齐的模型可能与处理语句不完全匹配,以及发音连续... 训练深度神经网络声学模型时,所采用的强制对齐得到的目标值存在无法精准地表示出语音实际状况的问题。针对这一问题,提出一种利用前后向算法得到非0-1分布目标值的方法。由于用于强制对齐的模型可能与处理语句不完全匹配,以及发音连续性导致的过渡边界难以分离等问题,强制对齐得到的目标值存在不合理性。新的目标值可以表示某一帧以一定概率属于邻近各状态的分布情况,更详细地描述建模单元之间的过渡,进一步还原语音的原貌,提升模型的鲁棒性。同时,为寻求模型鲁棒性和建模单元区分度之间的平衡,对算法得到的目标值进行加窗处理。在中文客服问答领域进行实验,在小数据量上验证了目标值对于训练的较大影响,并且选取窗长宽度这一参数。最后将训练数据量提升至60、80以及100 h,结果显示,新的目标值优化方法训练得到的模型在识别性能上获得提升,相对字错误率下降为1.10%~3.65%。多组实验验证新的目标值优化方法对模型训练有一定效果,在训练数据量上升的情况下依然具有有效性。 展开更多
关键词 语音识别 深度神经网络 前后向算法 目标值优化
在线阅读 下载PDF
交叉对数似然度和贝叶斯信息判据的说话人聚类算法 被引量:3
4
作者 刘倓倓 潘接林 +1 位作者 索洪斌 颜永红 《声学技术》 CSCD 北大核心 2007年第6期1181-1185,共5页
说话人分段聚类的任务是将一段语音中由同一说话人发出的语音聚合起来。文中提出了一种基于交叉对数似然度(Cross Log-likelihood Ratio,CLR)和贝叶斯信息判据(Bayesian information criterion,BIC)相结合的说话人聚类算法。交叉对数似... 说话人分段聚类的任务是将一段语音中由同一说话人发出的语音聚合起来。文中提出了一种基于交叉对数似然度(Cross Log-likelihood Ratio,CLR)和贝叶斯信息判据(Bayesian information criterion,BIC)相结合的说话人聚类算法。交叉对数似然度用于计算语音段间的相似度;而贝叶斯判据则提供了一种比较适当的停止聚类的准则,该算法结合了两种方法的优点,在无监督说话人聚类中得到了较好的应用。实验结果表明,基于交叉对数似然度和贝叶斯判据的说话人聚类方法,比单纯利用交叉对数似然度的方法准确度高。 展开更多
关键词 说话人聚类 交叉对数似然度 贝叶斯判据 聚类
在线阅读 下载PDF
基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度 被引量:1
5
作者 高兴龙 潘接林 颜永红 《电子与信息学报》 EI CSCD 北大核心 2014年第8期1852-1858,共7页
鉴于自动语音识别(ASR)中置信度估计困难的问题,该文提出一种基于多知识源融合的策略来提高置信度的鉴别能力。具体做法是,首先选择关于识别结果的声学层、语言层和语义层等不同层次的信息,然后通过实验确定这些信息不同的组合方式,并... 鉴于自动语音识别(ASR)中置信度估计困难的问题,该文提出一种基于多知识源融合的策略来提高置信度的鉴别能力。具体做法是,首先选择关于识别结果的声学层、语言层和语义层等不同层次的信息,然后通过实验确定这些信息不同的组合方式,并以此为特征在隐藏单元条件随机场(Hidden-units Conditional Random Fields,HuCRFs)框架下计算识别结果的条件概率。最后将HuCRFs条件概率作为语音识别结果置信度的新的估计。实验首先证明了HuCRFs条件概率是比归一化的网格后验概率鉴别能力更强的一种置信度估计方法。同时基于HuCRFs条件概率置信度,对解码器一遍识别得到的网格重新搜索最佳候选序列,取得了相对一遍识别最佳候选序列绝对近2%的字错误率(CER)下降。同时,该文也对比了基于HuCRFs条件概率搜索的最佳候选序列和基于长语言模型网格重估的最佳候选序列的性能,进一步证明了使用HuCRFs条件概率作为置信度估计是一种更好的选择。 展开更多
关键词 语音识别 置信度估计 多知识源融合 隐藏单元条件随机场 网格重估
在线阅读 下载PDF
嵌入式语音识别中一种高效的图搜索算法
6
作者 黎塔 蔡尚 +2 位作者 赵庆卫 潘接林 颜永红 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第S1期215-218,共4页
为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可... 为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可以使语音识别的解码过程更加紧凑有效.在对比实验中,传统的基于前缀合并的状态树搜索算法的大词表嵌入式单词拼读系统作为基线系统.实验结果表明,与基线系统相比,所提出的双层图搜索算法在系统解码速度相对提高10%的情况下,系统的动态内存占用仅为基线的8%.通过使用所提出的双层图搜索算法,大大提高了大词表嵌入式单词拼读系统的效率,使其更适用于大多数嵌入式平台. 展开更多
关键词 嵌入式语音识别 双层图搜索 单词拼读系统
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部