-
题名基于动态时间规整的语音样例快速检索算法
被引量:7
- 1
-
-
作者
张连海
冯志远
陈琦
李勃昊
-
机构
信息工程大学信息系统工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2014年第6期1688-1692,共5页
-
基金
国家自然科学基金资助项目(61175017)
-
文摘
为了提高基于DTW算法的语音检索系统的速度,提出了一种基于分段累积近似下界估计的动态时间规整算法,实现语音样例快速检索。该方法首先提取查询样例和测试集的音素后验概率作为特征参数,然后计算语音样例和测试集中所有候选分段实际动态规整得分的分段累积近似下界估计,最后采用K-最近邻算法与动态时间规整算法搜索与语音样例相似度最高的区域。实验结果表明,此算法的检索速度比直接运用DTW算法快6.32倍,而对其检索精度无任何影响。
-
关键词
语音样例检索
音素后验概率
分段累积近似下界估计
动态时间规整
内积距离
-
Keywords
query-by-example spoken term detection
phone posterior probability
piecewise aggregate approximation lower-bound estimate
dynamic time warping
inner-product distance
-
分类号
TP393.04
[自动化与计算机技术—计算机应用技术]
-
-
题名基于分段动态时间规整的语音样例快速检索
被引量:5
- 2
-
-
作者
冯志远
张连海
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《数据采集与处理》
CSCD
北大核心
2014年第2期265-273,共9页
-
基金
国家自然科学基金(61175017)资助项目
-
文摘
提出了一种融合下界估计和分段动态时间规整的语音样例快速检索方法。该方法针对缺乏合适的训练数据等语音资源较为有限的语言进行快速检索所设计。此方法首先提取查询样例和测试集的音素后验概率;然后,根据限制条件在测试语句中选定候选分段,并计算查询样例和每个候选分段之间实际动态时间规整得分的下界估计,再运用K最近邻搜索算法搜索与查询样例相似度最高的分段;最后,使用虚拟相关反馈技术对检索结果进行修正。实验结果表明:尽管此方法的检索精度略低于直接运用动态时间规整进行检索的检索精度,但其检索速度优于后者,且检索结果经过虚拟相关反馈技术修正后,其检索精度也得到有效提升。
-
关键词
语音样例检索
音素后验概率
分段动态时间规整
下界估计
虚拟相关反馈
-
Keywords
query-by-example spoken term detection
phone posterior probability
segmental dynamic time warping
lower-bound estimate
pseudo relevance feedback
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名融合边界信息的语音样例快速检索
- 3
-
-
作者
冯志远
张连海
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《信号处理》
CSCD
北大核心
2013年第6期743-752,共10页
-
基金
国家自然科学基金(61175017)资助项目
-
文摘
提出了一种融合音素边界信息的语音样例快速检索方法。该方法首先提取查询样例和测试集的音素后验概率;然后,运用层次凝聚聚类算法将音素后验概率序列分段(即音素边界检测),计算每个分段的平均向量并将其分别组成新查询和新索引,再运用动态时间规整进行语音样例的检索;最后,使用虚拟相关反馈技术对检索结果进行修正。实验结果表明:尽管此方法的检索精度略低于直接运用动态时间规整进行检索的检索精度,但其检索速度大大优于后者,且与其他相关文献提出的方法相比,此方法在检索速度方面也具有明显优势。
-
关键词
音素后验概率
层次凝聚聚类
动态时间规整
虚拟相关反馈
-
Keywords
phoneme posterior probabilities
hierarchical agglomerative clustering
dynamic time warping
pseudo relevance feedback
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词级DPPM的连续语音关键词检测
被引量:3
- 4
-
-
作者
王勇
张连海
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《计算机工程》
CAS
CSCD
2014年第5期247-251,共5页
-
文摘
提出一种基于词级区分性点过程模型的连续语音关键词检测方法。利用时间模式结构和多层感知器计算每个音素帧级后验概率,使用区分性点过程模型将一段时间内多个音素事件形成的点过程作为整体,把关键词检测看作二元分类问题,经分段和拼接构成超矢量,输入支持向量机分类器,判断该段语音是否为待检测关键词。该方法充分考虑语音信号上下文相关性,直接以词作为基本单元建模,提高了系统检测的准确性和鲁棒性。实验结果表明,对采样的语音,其关键词平均召回率和准确率分别可达71.5%和84.6%以上,并且结合相关语言模型知识,系统性能将会进一步提高。
-
关键词
点过程模型
音素后验概率
时间模式
关键词检测
支持向量机
区分性点过程模型
-
Keywords
phoneme posterior probability
time mode
keyword detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语音识别与特征的无监督语音模式提取
被引量:4
- 5
-
-
作者
张震
赵庆卫
颜永红
-
机构
中国科学院语言声学与内容理解重点实验室
-
出处
《计算机工程》
CAS
CSCD
2014年第5期262-265,共4页
-
基金
国家自然科学基金资助项目(10925419
90920302
+8 种基金
61072124
11074275
11161140319
91120001
61271426)
国家"863"计划基金资助项目(2012AA012503)
中国科学院重点部署基金资助项目(KGZD-EW-103-2)
中国科学院战略性先导科技专项基金资助项目"面向感知中国的新一代信息技术研究"(XDA06030100
XDA06030500)
-
文摘
在语音识别与特征系统中,通过无监督的方法搜索未知语音流中出现的语言模式。利用语音识别系统的多候选结果,通过分段动态时间弯曲算法进行语言模式的搜索,采用有效的聚类算法以及置信度估计算法,提高系统性能,同时建立仅基于特征匹配的相似音频片段检测系统,不使用任何知识源,仅从语音中获取重复的语音模式,在广播电视新闻与自然口语对话2个测试集上对比2个系统的性能。实验结果表明,基于识别的系统具有较好的检测效果,而基于特征的系统具备多语种的推广性。
-
关键词
语音识别
语音模式发现
分段动态时间弯曲算法
图聚类算法
音素回环后验概率计算
-
Keywords
speech recognition
speech pattern discovery
segmental dynamic time warping algorithm
graph clustering algorithm
phoneme loop calculation of posterior probability
-
分类号
TN912.34
[电子电信—通信与信息系统]
-