检索结果-维普期刊中文期刊服务平台

基于分层增长语音活动检测的鲁棒性说话人识别: 1; 作者解焱陆张劲松 +1 位作者刘明辉黄中伟《深圳大学学报（理工版）》 EI CAS 北大核心 2012年第4期328-334,共7页; 基于欧洲电信标准化协会颁布的分布式语音识别和前端标准(ETSI-DSR-AFE).针对分布式说话人识别噪声鲁棒性较差的问题,提出一种新的前端处理方法.该方法以似然距离为测度,对语音进行无监督聚类,为减少计算量,采用分层增长(level-building... 展开更多; 关键词语音信号处理说话人识别分布式语音识别分层增长语音活动检测似然距离; 在线阅读下载PDF 职称材料

说话人日志中可靠静音模型语音活动检测方法: 2; 作者杨登舟徐嘉明 +1 位作者刘加夏善红《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2016年第1期151-157,共7页; 为了解决传统语音活动检测(VAD)技术分离出的语音段掺杂静音以及帧间频繁跳动产生短语音碎片的问题,提出在说话人日志中能够高效稳定地完成语音活动检测的方法.该方法利用可靠静音模型对语音的区分度高这个特性,通过循环迭代收敛得到稳... 展开更多; 关键词说话人日志富标注语音活动检测(VAD) 高斯模型维特比解码; 在线阅读下载PDF 职称材料

孤独症访谈场景下融入角色信息的说话人日志方法: 3; 作者王康月程铭 +2 位作者谢奕香邹小兵李明《计算机科学》北大核心 2025年第2期231-241,共11页; 说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然... 展开更多; 关键词说话人日志角色分类特定说话人语音活动检测声纹特征提取孤独症谱系障碍; 在线阅读下载PDF 职称材料

多模型融合的VoxSRC22说话人日志系统: 4; 作者杜雨轩周若华《计算机工程与应用》 CSCD 北大核心 2024年第10期164-172,共9页; 为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)... 展开更多; 关键词说话人日志语音活动检测声纹嵌入说话人聚类结果融合; 在线阅读下载PDF 职称材料

题名基于分层增长语音活动检测的鲁棒性说话人识别: 1; 作者解焱陆张劲松刘明辉黄中伟; 机构北京语言大学信息科学学院深圳大学语音实验室; 出处《深圳大学学报（理工版）》 EI CAS 北大核心 2012年第4期328-334,共7页; 基金国家自然科学基金项目(61005020) 中央高校基本科研业务费专项资金资助项目(10JBT01)~~; 文摘基于欧洲电信标准化协会颁布的分布式语音识别和前端标准(ETSI-DSR-AFE).针对分布式说话人识别噪声鲁棒性较差的问题,提出一种新的前端处理方法.该方法以似然距离为测度,对语音进行无监督聚类,为减少计算量,采用分层增长(level-building)方法进行逐层分割,从而准确找出语音和静音的边界点.实验结果表明,用该方法改进ETSI-DSR-AFE标准后,信噪比在大于0 dB时,说话人辨认系统识别率相对改进了18.9%,相对原有的Mel频率倒谱系数(Mel-frequenly Ceptral coefficients,MFCC)系统识别率改进了60.7%.; 关键词语音信号处理说话人识别分布式语音识别分层增长语音活动检测似然距离; Keywords speech signal processing speaker identification distributed speech recognition level-building voice activity detection likelihood measurement; 分类号 TN912.34 [电子电信—通信与信息系统] TP391.4 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名说话人日志中可靠静音模型语音活动检测方法: 2; 作者杨登舟徐嘉明刘加夏善红; 机构中国科学院电子学研究所中国科学院大学电子电气与通信工程学院清华大学电子工程系; 出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2016年第1期151-157,共7页; 基金国家自然科学基金资助项目(61370034 61403224); 文摘为了解决传统语音活动检测(VAD)技术分离出的语音段掺杂静音以及帧间频繁跳动产生短语音碎片的问题,提出在说话人日志中能够高效稳定地完成语音活动检测的方法.该方法利用可靠静音模型对语音的区分度高这个特性,通过循环迭代收敛得到稳定划分.建立静音和语音模型,通过帧间连续性原理进行不确定性解码得到帧类属信息,开展低能量短时间语音碎片后处理完成语音活动检测.在富标注说话人日志数据集上测试,实验结果表明,由于对静音模型的描述更加可靠,采用该方法可以减少帧间跳动,减少静音模型对语音的吸收误判,性能比基于子带熵顺序统计滤波(SE-OSF)方法提高明显.; 关键词说话人日志富标注语音活动检测(VAD) 高斯模型维特比解码; Keywords speaker diarization rich transcription voice activity detection（VAD） Gaussian model Viterbi alignment; 分类号 TN912 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名孤独症访谈场景下融入角色信息的说话人日志方法: 3; 作者王康月程铭谢奕香邹小兵李明; 机构武汉大学计算机学院昆山杜克大学大数据研究中心中山大学附属第三医院儿童行为发育中心; 出处《计算机科学》北大核心 2025年第2期231-241,共11页; 基金国家自然科学基金面上项目(62171207) 广州市重点研发计划(202007030011)。; 文摘说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然存在角色信息,以孤独症辅助诊断为例,典型的情境包括医生、家长和接受诊断的孩子这3种明确定义的角色。但在实际对话中,角色和说话人之间的对应关系可能并非一一对应。例如,在孤独症诊断过程中,每次会话仅涉及一个孩子,而医生或家长的数量却是不确定的。文中认为语音片段中隐含的角色信息与声纹信息可以进行有效的互补,进而降低错误率,故提出一种将角色信息引入序列到序列目标说话人语音活动检测(Seq2Seq-TSVAD)中的方法。在CPEP-3数据集上,说话人日志的错误率(DER)为20.61%,相比Seq2Seq-TSVAD方法降低了9.8%,相比模块化说话人日志方法降低了19.3%,表明孤独症访谈场景下角色信息在提升说话人日志性能方面具有明显的作用。; 关键词说话人日志角色分类特定说话人语音活动检测声纹特征提取孤独症谱系障碍; Keywords Speaker diarization Role classification Specific speaker voice activity detection Voiceprint feature extraction Autism spectrum disorder; 分类号 TP391.42 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名多模型融合的VoxSRC22说话人日志系统: 4; 作者杜雨轩周若华; 机构北京建筑大学电气与信息工程学院; 出处《计算机工程与应用》 CSCD 北大核心 2024年第10期164-172,共9页; 文摘为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明,最佳系统的性能相对基线提升了72%,并在VoxCeleb说话人识别挑战赛(VoxCeleb speaker recognition challenge,VoxSRC)2022评估集上分别实现了5.48%的说话人日志错误率(diarization error rate,DER)和32.10%的杰卡德错误率(Jaccard error rate,JER),排名第四。; 关键词说话人日志语音活动检测声纹嵌入说话人聚类结果融合; Keywords speaker diarization voice activity detection speaker embedding speaker cluster result fusion; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	操作
1	基于分层增长语音活动检测的鲁棒性说话人识别	解焱陆张劲松刘明辉黄中伟	《深圳大学学报（理工版）》 EI CAS 北大核心	2012	在线阅读下载PDF 职称材料
2	说话人日志中可靠静音模型语音活动检测方法	杨登舟徐嘉明刘加夏善红	《浙江大学学报（工学版）》 EI CAS CSCD 北大核心	2016	在线阅读下载PDF 职称材料
3	孤独症访谈场景下融入角色信息的说话人日志方法	王康月程铭谢奕香邹小兵李明	《计算机科学》北大核心	2025	在线阅读下载PDF 职称材料
4	多模型融合的VoxSRC22说话人日志系统	杜雨轩周若华	《计算机工程与应用》 CSCD 北大核心	2024	在线阅读下载PDF 职称材料