期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于多尺度距离矩阵的语音关键词检测与细粒度定位方法
1
作者 李祥瑞 毛启容 《计算机应用研究》 CSCD 北大核心 2024年第11期3370-3375,共6页
针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方... 针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方法首先利用残差卷积网络提取特征并构建距离矩阵以建模输入之间的相关性;其次通过多尺度分割和解耦头学习不同尺度下的定位信息;最后根据多尺度加权定位损失、置信度损失和分类损失优化模型,实现对关键词存在性和时域边界的细粒度预测。在LibriSpeech数据集上的实验结果表明,MF-STD在集内词的检测中,精准率和交并比分别达到97.1%和88.6%;在集外词的检测中,精准率和交并比分别达到96.7%和88.2%。与现有的语音关键词检测与定位方法相比,MF-STD的检测准确率和定位精度显著提升,充分证明该方法的先进性,也证明了多尺度特征建模与细粒度定位约束在语音关键词检测任务中的有效性。 展开更多
关键词 语音关键词检测 语音细粒度定位 多尺度检测 残差卷积网络
在线阅读 下载PDF
基于音素后验概率的样例语音关键词检测方法 被引量:3
2
作者 张卫强 宋贝利 +1 位作者 蔡猛 刘加 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2015年第9期757-760,共4页
低资源条件下的语音关键词检测是一个具有挑战性的问题,因为传统的基于大词汇量连续语音识别(LVCSR)的语音关键词检测方法不再适用.针对此问题提出了一种基于深度神经网络(DNN)输出层后验概率特征和改进的动态时间规整(DTW)算法的语音... 低资源条件下的语音关键词检测是一个具有挑战性的问题,因为传统的基于大词汇量连续语音识别(LVCSR)的语音关键词检测方法不再适用.针对此问题提出了一种基于深度神经网络(DNN)输出层后验概率特征和改进的动态时间规整(DTW)算法的语音关键词检测方法.采用无监督高斯混合模型(GMM)和中、英文DNN音素模型得出的输入特征构建互补的子系统,并在SWS2013多语种数据集上进行实验.结果表明:相对于基线系统,分数层面的多语种、多系统融合能够有效地提升语音关键词检测系统的性能. 展开更多
关键词 样例查询 语音关键词检测 DNN输出层特征 动态时间规整
在线阅读 下载PDF
基于特征空间轨迹信息的语音关键词检测方法 被引量:2
3
作者 田颖慧 贺前华 +2 位作者 郑若伟 危卓 李艳雄 《电子学报》 EI CAS CSCD 北大核心 2023年第10期2915-2924,共10页
当前语音关键词检测的主流技术为深度学习,需要大规模标注样本进行训练,难以应用于更普遍的低资源场景.本文提出一种基于音频特征空间轨迹信息的低资源语音关键词检测方法,该方法基于“词是由更小语言单元(音节、音素)的结构化组成,以... 当前语音关键词检测的主流技术为深度学习,需要大规模标注样本进行训练,难以应用于更普遍的低资源场景.本文提出一种基于音频特征空间轨迹信息的低资源语音关键词检测方法,该方法基于“词是由更小语言单元(音节、音素)的结构化组成,以及语言单元声学特征具有稳定性(统计意义)”的事实,结合物理几何空间定位的原理,构建语音关键词的特征空间表达、时序信息表达和局部区分信息知识.语音关键词检测时,依据语音段的特征空间轨迹信息分层次进行判决,实现了模式信息与统计信息的综合应用.其中语音特征空间是利用丰富的无标注语音样本构建音频特征空间的标识子表达,而语音关键词的特征空间轨迹信息利用少量关键词语音样本构建.多个实验结果表明,本文算法在低资源时(100个样本以下),相比HMM和CRNN有显著优势,10个训练样本时,相比HMM,FRR绝对下降了20.5%,FAR绝对下降了8.7 FP/h;而在训练样本量较充分(300个样本及以上)时,与CRNN有大致相当的性能. 展开更多
关键词 语音关键词检测 音频特征空间 特征空间轨迹信息 低资源
在线阅读 下载PDF
基于特征空间轨迹匹配方式的语音关键词检测法 被引量:2
4
作者 吴旭辉 吴亚栋 《计算机工程与应用》 CSCD 北大核心 2003年第36期83-86,共4页
语音关键词识别是近年来颇受重视的一个研究领域,文章基于特征空间轨迹的时间规整化原理,提出了一种高性能的关键词检测法,并探讨了轨迹等分长度对该算法检测性能的影响。实验结果表明,基于特征空间轨迹匹配方式的关键词检测法的检测性... 语音关键词识别是近年来颇受重视的一个研究领域,文章基于特征空间轨迹的时间规整化原理,提出了一种高性能的关键词检测法,并探讨了轨迹等分长度对该算法检测性能的影响。实验结果表明,基于特征空间轨迹匹配方式的关键词检测法的检测性能接近于人工检测,具有一定的实用性。 展开更多
关键词 动态匹配 语音识别 模式匹配 特征空间轨迹 语音关键词检测 匹配方式
在线阅读 下载PDF
基于双向长短时记忆和卷积Transformer的声学词嵌入模型 被引量:3
5
作者 高芸芸 赵腊生 张强 《计算机应用》 CSCD 北大核心 2024年第1期123-128,共6页
示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-L... 示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性。在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%。实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测。 展开更多
关键词 卷积神经网络 声学词嵌入 语音信息 示例查询语音关键词检测 循环神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部