-
题名基于声学融合特征的说话人分类方法研究
- 1
-
-
作者
杨毅
陈国顺
鲍长春
-
机构
清华大学电子工程系清华信息科学与技术国家实验室(筹)
石家庄机械技术研究所电子室
北京工业大学电子信息与控制工程学院
-
出处
《计算机工程》
CAS
CSCD
2013年第8期1-4,共4页
-
基金
国家自然科学基金资助项目(61105017)
北京市自然科学基金资助项目(KZ201110005005)
-
文摘
说话人分类系统的目的是将声音数据分段并按说话人进行分类。对每个说话人提取基于多距离麦克风的多时延特征,可以进一步提高说话人分类系统性能。但随着麦克风个数增加,多时延特征向量维数迅速增长。针对该问题,采用保留特征流形结构并降低计算代价的方法,提出一种基于多距离麦克风融合声学特征的多分量鉴别式保局投影算法,利用支持向量机分类器进行两说话人分类系统的训练和测试,实现会议场景下的说话人分类。实验结果证明,与传统DLPP等算法相比,该算法在大部分数据集上的分类性能较优,可将分类误差率降低至20%以下。
-
关键词
说话人分类
多距离麦克风
多时延特征
声学融合特征
多分量鉴别式保局投影
分类误差率
-
Keywords
speaker classification
multiple distance microphone
multi-delay feature
acoustic merging feature
multi-component discriminant locality preserving projection
Diarization Error Rate(DER)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名多声学特征融合的语音自动剪辑深度学习模型
- 2
-
-
作者
刘臣
倪仁倢
周立欣
侯昌佑
-
机构
上海理工大学管理学院
上海广播电视台
-
出处
《小型微型计算机系统》
CSCD
北大核心
2023年第8期1713-1719,共7页
-
基金
国家自然科学基金面上项目(71774111)资助
中国博士后科学基金第69批面上项目(2021M692135)资助。
-
文摘
剪辑是音视频制作中的重要环节,剪辑师需综合考虑剪辑节奏、关联性等要素,耗费大量人力和时间.从剪辑特性和实际应用出发,本文提出了一种多声学特征融合的语音自动剪辑深度学习模型(CNN-BiGRU),它可以识别媒体中的语音部分并进行艺术化的自动剪辑.模型提取了对数梅尔频谱、短时能量和短时过零率3种特征,通过多个卷积神经网络融合后输入双向门控循环神经网络.采用基于课程式学习的方式,使用先大后小的数据形式将模型训练至最佳.实验结果表明相较于传统机器学习剪辑模型,本模型能更有效地结合整体与局部的信息进行剪辑,且具有更强的鲁棒性.模型在CHiME-5测试集上的准确率高达98.36%,与人工剪辑结果十分接近且大幅缩短剪辑耗时.
-
关键词
语音剪辑
声学特征融合
课程式学习
双向门控循环神经网络
卷积神经网络
-
Keywords
voice editing
fusing acoustic features
curriculum learning
Bi-GRU
CNN
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-