期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于分层增长语音活动检测的鲁棒性说话人识别
1
作者
解焱陆
张劲松
+1 位作者
刘明辉
黄中伟
《深圳大学学报(理工版)》
EI
CAS
北大核心
2012年第4期328-334,共7页
基于欧洲电信标准化协会颁布的分布式语音识别和前端标准(ETSI-DSR-AFE).针对分布式说话人识别噪声鲁棒性较差的问题,提出一种新的前端处理方法.该方法以似然距离为测度,对语音进行无监督聚类,为减少计算量,采用分层增长(level-building...
基于欧洲电信标准化协会颁布的分布式语音识别和前端标准(ETSI-DSR-AFE).针对分布式说话人识别噪声鲁棒性较差的问题,提出一种新的前端处理方法.该方法以似然距离为测度,对语音进行无监督聚类,为减少计算量,采用分层增长(level-building)方法进行逐层分割,从而准确找出语音和静音的边界点.实验结果表明,用该方法改进ETSI-DSR-AFE标准后,信噪比在大于0 dB时,说话人辨认系统识别率相对改进了18.9%,相对原有的Mel频率倒谱系数(Mel-frequenly Ceptral coefficients,MFCC)系统识别率改进了60.7%.
展开更多
关键词
语音
信号处理
说话人
识别
分布式
语音
识别
分层增长
语音
活动
检测
似然距离
在线阅读
下载PDF
职称材料
说话人日志中可靠静音模型语音活动检测方法
2
作者
杨登舟
徐嘉明
+1 位作者
刘加
夏善红
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2016年第1期151-157,共7页
为了解决传统语音活动检测(VAD)技术分离出的语音段掺杂静音以及帧间频繁跳动产生短语音碎片的问题,提出在说话人日志中能够高效稳定地完成语音活动检测的方法.该方法利用可靠静音模型对语音的区分度高这个特性,通过循环迭代收敛得到稳...
为了解决传统语音活动检测(VAD)技术分离出的语音段掺杂静音以及帧间频繁跳动产生短语音碎片的问题,提出在说话人日志中能够高效稳定地完成语音活动检测的方法.该方法利用可靠静音模型对语音的区分度高这个特性,通过循环迭代收敛得到稳定划分.建立静音和语音模型,通过帧间连续性原理进行不确定性解码得到帧类属信息,开展低能量短时间语音碎片后处理完成语音活动检测.在富标注说话人日志数据集上测试,实验结果表明,由于对静音模型的描述更加可靠,采用该方法可以减少帧间跳动,减少静音模型对语音的吸收误判,性能比基于子带熵顺序统计滤波(SE-OSF)方法提高明显.
展开更多
关键词
说话人
日志
富标注
语音
活动
检测
(VAD)
高斯模型
维特比解码
在线阅读
下载PDF
职称材料
孤独症访谈场景下融入角色信息的说话人日志方法
3
作者
王康月
程铭
+2 位作者
谢奕香
邹小兵
李明
《计算机科学》
北大核心
2025年第2期231-241,共11页
说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然...
说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然存在角色信息,以孤独症辅助诊断为例,典型的情境包括医生、家长和接受诊断的孩子这3种明确定义的角色。但在实际对话中,角色和说话人之间的对应关系可能并非一一对应。例如,在孤独症诊断过程中,每次会话仅涉及一个孩子,而医生或家长的数量却是不确定的。文中认为语音片段中隐含的角色信息与声纹信息可以进行有效的互补,进而降低错误率,故提出一种将角色信息引入序列到序列目标说话人语音活动检测(Seq2Seq-TSVAD)中的方法。在CPEP-3数据集上,说话人日志的错误率(DER)为20.61%,相比Seq2Seq-TSVAD方法降低了9.8%,相比模块化说话人日志方法降低了19.3%,表明孤独症访谈场景下角色信息在提升说话人日志性能方面具有明显的作用。
展开更多
关键词
说话人
日志
角色分类
特定说话人语音活动检测
声纹特征提取
孤独症谱系障碍
在线阅读
下载PDF
职称材料
多模型融合的VoxSRC22说话人日志系统
4
作者
杜雨轩
周若华
《计算机工程与应用》
CSCD
北大核心
2024年第10期164-172,共9页
为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)...
为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明,最佳系统的性能相对基线提升了72%,并在VoxCeleb说话人识别挑战赛(VoxCeleb speaker recognition challenge,VoxSRC)2022评估集上分别实现了5.48%的说话人日志错误率(diarization error rate,DER)和32.10%的杰卡德错误率(Jaccard error rate,JER),排名第四。
展开更多
关键词
说话人
日志
语音
活动
检测
声纹嵌入
说话人
聚类
结果融合
在线阅读
下载PDF
职称材料
题名
基于分层增长语音活动检测的鲁棒性说话人识别
1
作者
解焱陆
张劲松
刘明辉
黄中伟
机构
北京语言大学信息科学学院
深圳大学语音实验室
出处
《深圳大学学报(理工版)》
EI
CAS
北大核心
2012年第4期328-334,共7页
基金
国家自然科学基金项目(61005020)
中央高校基本科研业务费专项资金资助项目(10JBT01)~~
文摘
基于欧洲电信标准化协会颁布的分布式语音识别和前端标准(ETSI-DSR-AFE).针对分布式说话人识别噪声鲁棒性较差的问题,提出一种新的前端处理方法.该方法以似然距离为测度,对语音进行无监督聚类,为减少计算量,采用分层增长(level-building)方法进行逐层分割,从而准确找出语音和静音的边界点.实验结果表明,用该方法改进ETSI-DSR-AFE标准后,信噪比在大于0 dB时,说话人辨认系统识别率相对改进了18.9%,相对原有的Mel频率倒谱系数(Mel-frequenly Ceptral coefficients,MFCC)系统识别率改进了60.7%.
关键词
语音
信号处理
说话人
识别
分布式
语音
识别
分层增长
语音
活动
检测
似然距离
Keywords
speech signal processing
speaker identification
distributed speech recognition
level-building
voice activity detection
likelihood measurement
分类号
TN912.34 [电子电信—通信与信息系统]
TP391.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
说话人日志中可靠静音模型语音活动检测方法
2
作者
杨登舟
徐嘉明
刘加
夏善红
机构
中国科学院电子学研究所
中国科学院大学电子电气与通信工程学院
清华大学电子工程系
出处
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2016年第1期151-157,共7页
基金
国家自然科学基金资助项目(61370034
61403224)
文摘
为了解决传统语音活动检测(VAD)技术分离出的语音段掺杂静音以及帧间频繁跳动产生短语音碎片的问题,提出在说话人日志中能够高效稳定地完成语音活动检测的方法.该方法利用可靠静音模型对语音的区分度高这个特性,通过循环迭代收敛得到稳定划分.建立静音和语音模型,通过帧间连续性原理进行不确定性解码得到帧类属信息,开展低能量短时间语音碎片后处理完成语音活动检测.在富标注说话人日志数据集上测试,实验结果表明,由于对静音模型的描述更加可靠,采用该方法可以减少帧间跳动,减少静音模型对语音的吸收误判,性能比基于子带熵顺序统计滤波(SE-OSF)方法提高明显.
关键词
说话人
日志
富标注
语音
活动
检测
(VAD)
高斯模型
维特比解码
Keywords
speaker diarization
rich transcription
voice activity detection(VAD)
Gaussian model
Viterbi alignment
分类号
TN912 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
孤独症访谈场景下融入角色信息的说话人日志方法
3
作者
王康月
程铭
谢奕香
邹小兵
李明
机构
武汉大学计算机学院
昆山杜克大学大数据研究中心
中山大学附属第三医院儿童行为发育中心
出处
《计算机科学》
北大核心
2025年第2期231-241,共11页
基金
国家自然科学基金面上项目(62171207)
广州市重点研发计划(202007030011)。
文摘
说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然存在角色信息,以孤独症辅助诊断为例,典型的情境包括医生、家长和接受诊断的孩子这3种明确定义的角色。但在实际对话中,角色和说话人之间的对应关系可能并非一一对应。例如,在孤独症诊断过程中,每次会话仅涉及一个孩子,而医生或家长的数量却是不确定的。文中认为语音片段中隐含的角色信息与声纹信息可以进行有效的互补,进而降低错误率,故提出一种将角色信息引入序列到序列目标说话人语音活动检测(Seq2Seq-TSVAD)中的方法。在CPEP-3数据集上,说话人日志的错误率(DER)为20.61%,相比Seq2Seq-TSVAD方法降低了9.8%,相比模块化说话人日志方法降低了19.3%,表明孤独症访谈场景下角色信息在提升说话人日志性能方面具有明显的作用。
关键词
说话人
日志
角色分类
特定说话人语音活动检测
声纹特征提取
孤独症谱系障碍
Keywords
Speaker diarization
Role classification
Specific speaker voice activity detection
Voiceprint feature extraction
Autism spectrum disorder
分类号
TP391.42 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
多模型融合的VoxSRC22说话人日志系统
4
作者
杜雨轩
周若华
机构
北京建筑大学电气与信息工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2024年第10期164-172,共9页
文摘
为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明,最佳系统的性能相对基线提升了72%,并在VoxCeleb说话人识别挑战赛(VoxCeleb speaker recognition challenge,VoxSRC)2022评估集上分别实现了5.48%的说话人日志错误率(diarization error rate,DER)和32.10%的杰卡德错误率(Jaccard error rate,JER),排名第四。
关键词
说话人
日志
语音
活动
检测
声纹嵌入
说话人
聚类
结果融合
Keywords
speaker diarization
voice activity detection
speaker embedding
speaker cluster
result fusion
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于分层增长语音活动检测的鲁棒性说话人识别
解焱陆
张劲松
刘明辉
黄中伟
《深圳大学学报(理工版)》
EI
CAS
北大核心
2012
0
在线阅读
下载PDF
职称材料
2
说话人日志中可靠静音模型语音活动检测方法
杨登舟
徐嘉明
刘加
夏善红
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2016
0
在线阅读
下载PDF
职称材料
3
孤独症访谈场景下融入角色信息的说话人日志方法
王康月
程铭
谢奕香
邹小兵
李明
《计算机科学》
北大核心
2025
0
在线阅读
下载PDF
职称材料
4
多模型融合的VoxSRC22说话人日志系统
杜雨轩
周若华
《计算机工程与应用》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部