期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于声学融合特征的说话人分类方法研究
1
作者 杨毅 陈国顺 鲍长春 《计算机工程》 CAS CSCD 2013年第8期1-4,共4页
说话人分类系统的目的是将声音数据分段并按说话人进行分类。对每个说话人提取基于多距离麦克风的多时延特征,可以进一步提高说话人分类系统性能。但随着麦克风个数增加,多时延特征向量维数迅速增长。针对该问题,采用保留特征流形结构... 说话人分类系统的目的是将声音数据分段并按说话人进行分类。对每个说话人提取基于多距离麦克风的多时延特征,可以进一步提高说话人分类系统性能。但随着麦克风个数增加,多时延特征向量维数迅速增长。针对该问题,采用保留特征流形结构并降低计算代价的方法,提出一种基于多距离麦克风融合声学特征的多分量鉴别式保局投影算法,利用支持向量机分类器进行两说话人分类系统的训练和测试,实现会议场景下的说话人分类。实验结果证明,与传统DLPP等算法相比,该算法在大部分数据集上的分类性能较优,可将分类误差率降低至20%以下。 展开更多
关键词 说话人分类 多距离麦克风 多时延特征 声学融合特征 多分量鉴别式保局投影 分类误差率
在线阅读 下载PDF
多声学特征融合的语音自动剪辑深度学习模型
2
作者 刘臣 倪仁倢 +1 位作者 周立欣 侯昌佑 《小型微型计算机系统》 CSCD 北大核心 2023年第8期1713-1719,共7页
剪辑是音视频制作中的重要环节,剪辑师需综合考虑剪辑节奏、关联性等要素,耗费大量人力和时间.从剪辑特性和实际应用出发,本文提出了一种多声学特征融合的语音自动剪辑深度学习模型(CNN-BiGRU),它可以识别媒体中的语音部分并进行艺术化... 剪辑是音视频制作中的重要环节,剪辑师需综合考虑剪辑节奏、关联性等要素,耗费大量人力和时间.从剪辑特性和实际应用出发,本文提出了一种多声学特征融合的语音自动剪辑深度学习模型(CNN-BiGRU),它可以识别媒体中的语音部分并进行艺术化的自动剪辑.模型提取了对数梅尔频谱、短时能量和短时过零率3种特征,通过多个卷积神经网络融合后输入双向门控循环神经网络.采用基于课程式学习的方式,使用先大后小的数据形式将模型训练至最佳.实验结果表明相较于传统机器学习剪辑模型,本模型能更有效地结合整体与局部的信息进行剪辑,且具有更强的鲁棒性.模型在CHiME-5测试集上的准确率高达98.36%,与人工剪辑结果十分接近且大幅缩短剪辑耗时. 展开更多
关键词 语音剪辑 声学特征融合 课程式学习 双向门控循环神经网络 卷积神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部