基于音素后验概率和层次凝聚聚类算法的音素边界检测

Phoneme boundary detection based on phoneme posterior probabilities and hierarchical agglomerative clustering algorithm

在线阅读下载PDF

导出

摘要提出了一种基于音素后验概率和层次凝聚聚类算法的音素边界检测方法。该方法首先利用改进的TRAP结构提取语音信号的帧级音素后验概率;然后,运用层次凝聚聚类算法将提取的音素后验概率进行聚类分析;最后根据其全部的最小损失函数值获取阈值,并通过此阈值决定聚类数目和音素边界。实验证明:该方法具有较好的检测性能,且相对于梅尔倒谱参数(MFCC),音素后验概率更为适合音素边界的检测。 A method of phoneme boundary detection based on phoneme posterior probability and Hierarchical Agglomerative Clustering(HAC) is presented. According to this method, phoneme posterior probabilities should first of all be got by Temporal Pattern(TRAP), and then HAC algorithm is chosen to cluster the phoneme posterior probability. Finally, a reasonable threshold can be obtained by all loss function values, and the number of clusters and the phoneme boundaries can be determined by the threshold. The experimental results show that this method is efficient and bears a good detection performance; and the phoneme posterior probabilities are more suitable for phoneme boundary detection than the Mel-Scale Frequency Cepstral Coefficients(MFCC).

作者冯志远张连海

机构地区信息工程大学信息系统工程学院

出处《太赫兹科学与电子信息学报》 2014年第2期260-265,共6页 Journal of Terahertz Science and Electronic Information Technology

基金国家自然科学基金资助项目(61175017)

关键词音素边界检测音素后验概率层次凝聚聚类 phoneme boundary detection phoneme posterior probability hierarchical agglomerative clustering

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1张宝奇,张连海,屈丹.基于听觉事件检测的汉语语音声韵切分[J].声学学报,2010,35(6):701-707. 被引量：7
2贾兰兰.一种快速稳健的语音/音乐分类方法[J].信息与电子工程,2008,6(4):281-283. 被引量：4
3许友亮,张连海,牛铜.基于音位属性和边界信息的音素识别[J].数据采集与处理,2013,28(2):178-183. 被引量：6

二级参考文献26

1栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
2白亮,老松杨,陈剑赟,吴玲达.基于支持向量机的音频分类与分割[J].计算机科学,2005,32(4):87-90. 被引量：13
3[1]Scheirer E,Slaney M.Construction and evaluation of a robust multifeature speech/music discriminator[C]// in Proc.ICASSP.1997:1331-1334.
4[2]Lu lie,Jiang hao,Zhang hongjiang.A robust audio classification and segmentation method[C]// ACM Multimedia.2001:203-211.
5[3]Wang W Q,Gao W.Automatic segmentation of news items based on video and audio features[C]// The second IEEE pacificrim conference on multimedia.2001:24-26.
6[5]Wang W Q,Gao W.A Fast and Robust Speech/Music Discrimination Approach[J].ICICS-PCM,2003,3:1325-1329.
7Dusan S, Rabiner L R. On integrating insights from human speeeh pereeption into automatic speech rec- ognitionl-C]//Conference on the International Speech Communication Association (InterSpeech). Lisbon: Interspeeeh Press, 2005 : 1233-1236.
8Morris J, Fosler Lussier E. Combining phonetic at tributes using conditional random fields[C]/Proc An nu Conf Int Speech Commun Assoc, INTER SPEECH. UK: Dummy Pubid, 2006:597-600.
9Scharenborg O, Wan V, Mirjam E. Unsupervised speech segmentation: an analysis of the hypothesized phone boundaries[J]. Journal of the Acoustical Soci- ety of America, 2010,127(2) :1084-1095.
10Yu Qiao, Shimomura N, Minematsu N. Unsuper- vised optimal phoneme segmentation., objectives, al- gorithm and comparisons [C]//IEEE International Conference on Acoustics, Speech and Signal Process- ing. Las Vegas, USA: Es. n. ], 2008:3989-3992.

共引文献13

1许雪琼,余小清,李昌莲,万旺根.改进波形相似叠加算法的音频时长调整[J].应用科学学报,2009,27(5):514-519. 被引量：2
2陈斌,张连海,王波,屈丹.基于Seneff听觉谱特征的汉语连续语音声韵母边界检测[J].声学学报,2012,37(1):104-112. 被引量：6
3李皓,唐朝京.采用损失函数和声学特征切分声韵母的方法[J].声学学报,2012,37(3):339-345. 被引量：3
4张连海,陈斌,屈丹.基于发音特性的摩擦音和塞擦音分类算法[J].计算机科学,2012,39(9):211-214. 被引量：1
5张力,张连海,许友亮.一种融合IB准则特征的说话人分段聚类方法[J].太赫兹科学与电子信息学报,2013,11(1):136-141.
6李立永,张连海.基于区分性特征的音素识别[J].信息工程大学学报,2013,14(6):692-699.
7李立永,张连海,冯志远.基于语谱能量的音素边界检测[J].太赫兹科学与电子信息学报,2013,11(6):936-941. 被引量：1
8李立永,张连海.基于能量谱熵的英语摩擦音检测方法[J].模式识别与人工智能,2014,27(6):554-560.
9张连海,陈斌,屈丹,李弼程.基于能量变化率的汉语塞音检测算法[J].中文信息学报,2014,28(3):116-122. 被引量：1
10赵力,张昕然,梁瑞宇,王青云.数字助听器若干关键算法研究现状综述[J].数据采集与处理,2015,30(2):252-265. 被引量：10

1王小华,沈杰,王荣波.一种新的基于蚁群和凝聚的混合聚类算法[J].杭州电子科技大学学报（自然科学版）,2010,30(1):26-29. 被引量：3
2陈宇欣,何振亚.基于特征结构提取的盲自适应波束形成算法[J].东南大学学报（自然科学版）,1998,28(5):39-43. 被引量：1
3兀革,陈治明,张昌利,徐南屏.GTO关断特性的SPICE模拟[J].Journal of Semiconductors,1998,19(5):362-368. 被引量：3
4赵春江,施文康,邓勇.基于模糊推理的边界检测方法[J].光学精密工程,2003,11(3):309-313. 被引量：4
5龚坚,李立源,陈维南.基于微分图象噪声估计的主动型边界检测方法[J].南京航空航天大学学报,1994,26(S1):136-142. 被引量：1
6郭武,王仁华,戴礼荣.基于基音周期与清浊音信息的梅尔倒谱参数[J].数据采集与处理,2007,22(2):229-233. 被引量：1
7雅马哈（YAMAHA）RX-V4600 AV功放[J].家庭影院技术,2005(10):4-4.
8刘雅琴,智爱娟.几种语音识别特征参数的研究[J].计算机技术与发展,2009,19(12):67-70. 被引量：19
9王鹤朋,谢红.基于杂草改进的模糊聚类雷达信号分选[J].应用科技,2014,41(2):12-15. 被引量：1
10宣学雷,刘华,陈春风.基于JET协议的突发包分割机制[J].光纤与电缆及其应用技术,2004(3):25-28.

太赫兹科学与电子信息学报

2014年第2期

浏览历史

内容加载中请稍等...

基于音素后验概率和层次凝聚聚类算法的音素边界检测

参考文献3

二级参考文献26

共引文献13

相关作者

相关机构

相关主题

浏览历史