说话人分割聚类研究进展被引量：7

Advances in speaker segmentation and clustering

在线阅读下载PDF

导出

摘要说话人分割聚类是近几年新兴起的语音信号处理研究方向,它主要研究如何确定连续语流中多说话人起止时间的位置,并标出每个语音段对应的说话人。这项研究对自动语音识别、多说话人识别和基于内容的音频分析等都具有重要的意义。根据说话人分割和聚类实现过程不同,本文从异步策略和同步策略的角度回顾了十年来国内外研究的主流算法、技术和代表系统,对比了不同代表系统在近几年NIST富信息转写评测的结果,最后讨论了目前还存在的问题,并对未来的发展进行了展望。 Speaker segmentation and clustering, which are focused on the determination of the starting and ending time points in multi-speaker audio flows and labeling the speech signal segments with labels corresponding to the identity speaker, have gradually become a hotspot in the field of speech signal processing in the recent years. It plays an important role in auto- matic speech recognition （ASR）, multi-speaker recognition and content-based audio signals analysis. Based on the different implementation processes used in the speaker segmentation and clustering, this paper gives a detailed review of the state-of-the- art algorithms, techniques and typical systems proposed in the past decade from the aspects of asynchronous and synchronous strategies. And the performances of the typical systems are compared through the NIST Rich Transcription （RT） evaluations in recent years. The existing problems are discussed and the future prospects of this research area are also described at the end.

作者马勇鲍长春

机构地区北京工业大学电子信息与控制工程学院语音与音频信号处理研究室江苏师范大学物理与电子工程学院

出处《信号处理》 CSCD 北大核心 2013年第9期1190-1199,共10页 Journal of Signal Processing

基金北京市教育委员会科技发展计划重点项目(KZ201110005005) 国家自然科学基金资助项目(61072089)

关键词说话人分割聚类异步策略同步策略贝叶斯信息判决 Speaker segmentation and clustering Asynchronous strategy Synchronous strategy Bayesian information criterion

分类号 TN912.3 [电子电信—通信与信息系统]

作者简介马勇男，1977年生，江苏新沂，北京工业大学博士研究生，主要研究方向为语音信号处理和模式识别。E—mail：may773@emals．bjut．edu．cn 鲍长春男，1965年生，内蒙古赤峰，博士，北京工业大学教授、博士生导师，IEEE信号处理学会会员，国际语音通信学会（ISCA）会员，中国电子学会理事，中国声学学会理事，信号处理学会委员，《通信学报》编委会副主任委员、《信号处理》和《数据采集与处理》编委。主要研究方向为语音与音频信号处理。E—mail：baochch@bjut．edu．cn

引文网络
相关文献

参考文献64

1S.E.Tranter,D.A.Reynolds.An overview of automatic speaker diarization systems[J].IEEE Tram on Audio,Speech,and Language for Processing.2006,14(5):1557-1565.
2M.Kotti,V.Moschou,C.Kotropoulos.Speaker segmentation and clustering.Signal Processing 2008(88):1091-1124.
3..http://www.itl.nist.gov/iad/mig/tests/rt/,.
4T.Stafylakis and V.Katsouros.A review of recent advances in speaker diarization with bayesian methods.Speech and Language Technologies[M].InTech pubhshing 2011:217-240.
5X.Anguera,S.Bozonnet,N.Evans,C.Fredouille,G.Friedland,O.Vinyals.Speaker diarization:a review of recent research[J].IEEE Trans on Audio,Speech,and Language for Processing.2012,20(2):356-370.
6卢坚,毛兵,孙正兴,张福炎.一种改进的基于说话者的语音分割算法[J].软件学报,2002,13(2):274-279. 被引量：17
7付中华,张艳宁.在线无监督说话人检索中稳健的模型自举算法[J].软件学报,2007,18(3):608-616. 被引量：3
8张薇,刘加.电话语音的多说话人分割聚类研究[J].清华大学学报（自然科学版）,2008,48(4):574-577. 被引量：6
9郑铁然,李海峰,刘先,韩纪庆.基于预分割的说话人分割方法[J].通信学报,2009,30(2):118-122. 被引量：4
10杨继臣,贺前华,李艳雄,王伟凝.一种两步判决的说话人分割算法[J].电子与信息学报,2010,32(8):2006-2009. 被引量：7

二级参考文献60

1张一彬,周杰,边肇祺,张大鹏.一种基于内容的音频流二级分割方法[J].计算机学报,2006,29(3):457-465. 被引量：7
2张世磊,张树武,徐波.一种两层次无监督的音频分割算法[J].中文信息学报,2007,21(2):106-111. 被引量：5
3Reynolds D, Quatieri T, Dunn R. Speaker verification using adapted Gaussian mixture models [J]. Digital Signal Processing, 2000, 10:19 - 41.
4Chen S S, Gales M J. Automatic transcription of broadcast news [J]. Speech Communication, 2002, 37: 69-87.
5Tritschler A, Gopinath R. Improved speaker segmentation and segments clustering using the Bayesian information criterion [C] // Sixth European Conference on Speech Communication and Technology (EUROSPEECH' 99). Budapest, Hungary, 1999:679 - 682.
6Meignier S. E HMM approach for learning and adapting sound models for speaker indexing [C]// Speaker Odyssey. Chania, Crete, 2001: 175-180.
7Gish H, Siu M, Rohlicek R. Segregation of speakers for speech recognition and speaker identification [C] // Proceedings of the ICASSP. Toronto, Canada: IEEE, 1991: 873 - 876.
8Bimbot F, Magrin-Chagnolleau I. Second-order statistical measures for text-independent speaker identification[J]. Speech Communication, 1995, 17: 177-192.
9NIST. The 1998 NIST Speaker Recognition Evaluation Plan [OL]. (1998). URL: http://www. nist. gov/speech/tests/ spk/1998.
10LU L, ZHANG H J. Speaker change detection and tracking in real-time news broadcasting analysis[A]. Proc ACM Multimedia, Juan-les-Pins[C]. France, 2002.602-610.

共引文献36

1陈莘萌,陈刚,姚昱.基于最小平均复杂度的矢量量化音频分类方法[J].武汉大学学报（理学版）,2005,51(1):69-73. 被引量：1
2杨新旭,王长山,王东琦,郑丽娜.基于隐马尔可夫模型的入侵检测系统[J].计算机工程与应用,2005,41(12):149-151. 被引量：9
3李超,熊璋,薛玲,刘云.一种阈值自适应调整的实时音频分割方法[J].北京航空航天大学学报,2005,31(12):1317-1321. 被引量：2
4张世磊,张树武,徐波.一种两层次无监督的音频分割算法[J].中文信息学报,2007,21(2):106-111. 被引量：5
5付中华,张艳宁.在线无监督说话人检索中稳健的模型自举算法[J].软件学报,2007,18(3):608-616. 被引量：3
6郑燕琳,杨晓炯,许星宇.电话语音中基于多说话人的声纹识别系统[J].电信科学,2010,26(S2):105-108.
7王志明,周序生.基于定长窗分层检测的音频分割算法[J].中小企业管理与科技,2009(21):296-297.
8郑继明,俞佳.基于GLR距离和BIC的混合音频分割算法[J].计算机工程与设计,2009,30(13):3120-3123. 被引量：3
9王志明,张瑞杰,李弼程.基于分层熵检测的音频分割算法[J].科学技术与工程,2009,9(17):5012-5016. 被引量：1
10王志明,周序生.基于定长窗分层检测的音频分割算法[J].计算机仿真,2009,26(9):350-354. 被引量：1

同被引文献30

1孟国.汉语语速与对外汉语听力教学[J].世界汉语教学,2006,20(2):129-137. 被引量：36
2KOTTI M, MOSCHOU V, KOTROPOULOS C. Speaker segmentation and clustering [ J]. Signal Processing, 2008, 88(5) : 1091-1124.
3KENNY P, BOULIANNE G, OUELLET P, et al. Joint factor analysis versus eigenchannels in speaker recognition [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1435-1447.
4CASTALDO F, COLIBRO D, DALMASSO E, et al. Stream-based speaker segmentation using speaker factors and eigenvoices [ C ]//2008 IEEE International Conference on Acoustics Speech and Signal Processing. Las Vegas: IEEE Press, 2008: 4133-4136.
5HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [ J]. Science, 2006, 313(5786): 504-507.
6YU D, DENG L. Deep learning and its applications to signal and information processing [ J ]. IEEE Signal Process Magazine, 2011 , 28( 1 ) : 145-154.
7CHEN K, AHMAD S. Learning speaker-specific characteristics with a deep neural architecture [ J]. IEEE Transactions Neural Networks, 2011 , 22 ( 11 ) : 1744- 1756.
8COATES A, LEE H, NG A Y. An analysis of single layer networks in unsupervised feature learning [ C ] // Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Lauderdale: JMLR W & CP Press, 2011 : 215-223.
9HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors [ J ]. Neural and Evolutionary Computing, 2012(7): 1-18.
10VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders : learning useful representations in a deep network with a local denoising criterion [ J ]. Journal of Machine Learning Research, 2010, 11(12) : 3371-3408.

引证文献7

1马勇,鲍长春.基于稀疏神经网络的说话人分割[J].北京工业大学学报,2015,41(5):662-667. 被引量：9
2马勇,鲍长春.基于高层信息特征的重叠语音检测[J].清华大学学报（自然科学版）,2017,57(1):79-83. 被引量：3
3李敬阳,李锐,王莉,王晓笛.基于变分贝叶斯改进的说话人聚类算法[J].数据采集与处理,2017,32(1):54-61. 被引量：3
4赖松轩,李艳雄.说话人聚类的初始类生成方法[J].计算机工程与应用,2017,53(3):149-153.
5李艳妮,张二华.多人会话混合语音的说话人分割[J].计算机与数字工程,2020,48(7):1558-1563.
6项羽,令晓明,郭亚龙.基于DS证据理论多特征融合模型的说话人分割聚类研究[J].科技创新与应用,2023,13(23):108-111.
7许铭洋,王华朋,闫道申,杨海涛,楚宪腾.基于深度嵌入向量的说话人分割研究[J].刑事技术,2023,48(5):466-472.

二级引证文献14

1黄健航,雷迎科.基于边际Fisher深度自编码器的电台指纹特征提取[J].模式识别与人工智能,2017,30(11):1030-1038. 被引量：7
2黄健航,雷迎科.基于深度学习的通信辐射源指纹特征提取算法[J].信号处理,2018,34(1):31-38. 被引量：22
3汤芳,刘义伦,龙慧.稀疏自编码深度神经网络及其在滚动轴承故障诊断中的应用[J].机械科学与技术,2018,37(3):352-357. 被引量：28
4崔广新,李殿奎.基于自编码算法的深度学习综述[J].计算机系统应用,2018,27(9):47-51. 被引量：19
5许春冬,周静,应冬文,龙清华.心音信号MFCC特征向量提取方法的优化[J].信号处理,2019,35(3):410-418. 被引量：12
6王方丽,傅嘉俊.基于Python的BIC语音分割算法的实现与应用[J].计算机与数字工程,2020,48(4):763-766. 被引量：3
7刘高辉,张晓博.一种基于深度置信网络的通信辐射源个体识别方法[J].电波科学学报,2020,35(3):395-403. 被引量：14
8李艳妮,张二华.多人会话混合语音的说话人分割[J].计算机与数字工程,2020,48(7):1558-1563.
9魏金太,高穹.基于深度学习的对话重叠语音片段检测[J].中北大学学报（自然科学版）,2021,42(1):34-39. 被引量：2
10韩红桂,王远,甄琪.基于离散Hopfield神经网络的化学实验室安全评估[J].北京工业大学学报,2022,48(11):1150-1158. 被引量：5

1汪洋,甘涛,向军.广播电视新闻中的主持人跟踪系统[J].计算机系统应用,2014,23(10):40-45.
2朱唯鑫,郭武.采用长度规整MAP的说话人分割聚类[J].信号处理,2016,32(7):859-865. 被引量：1
3李稀敏,洪青阳,黄晓丹.基于说话人的音频分割与聚类[J].心智与计算,2010,0(2):139-147. 被引量：5
4赵全忠,邱建荣,姜雄伟,赵崇军,朱从善.多光束干涉飞秒激光转写周期微结构[J].激光与光电子学进展,2005,42(12):19-19. 被引量：1
5荣海娜,张葛祥,金炜东.基于S-method的多分量雷达辐射源信号检测[J].四川大学学报（工程科学版）,2009,41(1):174-179. 被引量：2
6吴宇,钱旭,周剑鸣.基于相对熵和贝叶斯信息判据的在线分割算法[J].电声技术,2013,37(3):49-53. 被引量：1
7吴伟,李艳雄,王梓里,陈祝允.基于语速差异的新闻发布会中首要说话人检测[J].计算机工程与应用,2015,51(4):222-225.
8工运短波[J].时代风采,2011(11):28-29.
9番茄蛋挞.用QQ影音实现可视化视频/音频截取[J].电脑迷,2009(19):72-72.
10杨继臣,贺前华,李艳雄,王伟凝.一种两步判决的说话人分割算法[J].电子与信息学报,2010,32(8):2006-2009. 被引量：7

信号处理

2013年第9期

浏览历史

内容加载中请稍等...

说话人分割聚类研究进展被引量：7

参考文献64

二级参考文献60

共引文献36

同被引文献30

引证文献7

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

说话人分割聚类研究进展 被引量：7

参考文献64

二级参考文献60

共引文献36

同被引文献30

引证文献7

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

说话人分割聚类研究进展被引量：7