-
题名基于声学融合特征的说话人分类方法研究
- 1
-
-
作者
杨毅
陈国顺
鲍长春
-
机构
清华大学电子工程系清华信息科学与技术国家实验室(筹)
石家庄机械技术研究所电子室
北京工业大学电子信息与控制工程学院
-
出处
《计算机工程》
CAS
CSCD
2013年第8期1-4,共4页
-
基金
国家自然科学基金资助项目(61105017)
北京市自然科学基金资助项目(KZ201110005005)
-
文摘
说话人分类系统的目的是将声音数据分段并按说话人进行分类。对每个说话人提取基于多距离麦克风的多时延特征,可以进一步提高说话人分类系统性能。但随着麦克风个数增加,多时延特征向量维数迅速增长。针对该问题,采用保留特征流形结构并降低计算代价的方法,提出一种基于多距离麦克风融合声学特征的多分量鉴别式保局投影算法,利用支持向量机分类器进行两说话人分类系统的训练和测试,实现会议场景下的说话人分类。实验结果证明,与传统DLPP等算法相比,该算法在大部分数据集上的分类性能较优,可将分类误差率降低至20%以下。
-
关键词
说话人分类
多距离麦克风
多时延特征
声学融合特征
多分量鉴别式保局投影
分类误差率
-
Keywords
speaker classification
multiple distance microphone
multi-delay feature
acoustic merging feature
multi-component discriminant locality preserving projection
Diarization Error Rate(DER)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于空间声学特征的说话人分类算法
- 2
-
-
作者
杨毅
陈国顺
鲍长春
-
机构
清华大学电子工程系清华信息科学与技术国家实验室(筹)
石家庄机械技术研究所电子室
北京工业大学电子信息与控制工程学院
-
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2013年第7期1029-1033,共5页
-
基金
国家自然科学基金资助项目(61105017)
北京市自然科学基金资助项目(KZ201110005005)
-
文摘
针对先验信息缺失情况下的说话人分类问题,可以采用提取基于多距离麦克风的空间声学特征的方法进行说话人分类.为了解决由于空间声学特征维数随麦克风个数的增加而迅速增长带来的计算代价问题,需要对其进行降维处理.用一种基于空间声学特征的优化鉴别式保局投影说话人分类方法,实现了在保留空间声学特征流型结构的同时降低计算代价的效果.实验在多距离麦克风语音会议数据集上进行验证,得到在大部分数据集上本方法的分类误差率(diarization error rate,DER)得分低于传统方法的结果.结果表明:本方法的说话人分类性能比传统方法有所提高.
-
关键词
说话人分类
多距离麦克风
空间声学特征
流型降维
优化鉴别式保局投影
-
Keywords
speaker classification
multiple distance microphones
spatial acoustic features
manifolddimension-reduction
optimized discriminant locality preserving projections
-
分类号
TN912.3
[电子电信—通信与信息系统]
-