期刊文献+
共找到137篇文章
< 1 2 7 >
每页显示 20 50 100
Studies on Model Distance Normalization Approach in Text-independent Speaker Verification 被引量:1
1
作者 DONG Yuan LU Liang +1 位作者 ZHAO Xian-Yu ZHAO Jian 《自动化学报》 EI CSCD 北大核心 2009年第5期556-560,共5页
关键词 自动化 标准化 函数逼近 ASV
在线阅读 下载PDF
说话者特征融合的对话情感识别模型 被引量:1
2
作者 刘欣雨 夏鸿斌 刘渊 《小型微型计算机系统》 北大核心 2025年第3期571-577,共7页
对话情感识别旨在预测对话中话语的情感.目前的方法大多只针对上下文信息进行建模,忽略了对说话者的建模.同时,语境在对话情感识别中起着至关重要的作用.为此,本文提出了说话者特征融合的对话情感识别模型.首先,将说话者名字作为标签进... 对话情感识别旨在预测对话中话语的情感.目前的方法大多只针对上下文信息进行建模,忽略了对说话者的建模.同时,语境在对话情感识别中起着至关重要的作用.为此,本文提出了说话者特征融合的对话情感识别模型.首先,将说话者名字作为标签进行特征提取,并在构造图结构时为说话者设置单独的节点.其次,分别构建全局对话、说话者在对话中对自己的情感影响和对其他说话者情感影响的图结构.然后,通过多头注意力获得体现对话语境的全局特征,将其与图卷积及门控循环单元融合获得分类特征.最后,通过前馈网络对话语情感进行分类.在IEMOCAP、MELD、EmoryNLP这3个基准数据集上的实验结果表明,该模型在性能指标上较其他基线模型均有一定提升. 展开更多
关键词 对话情感识别 上下文建模 说话者建模 图卷积网络 注意力机制
在线阅读 下载PDF
融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法 被引量:1
3
作者 鲁超峰 陶冶 +4 位作者 文连庆 孟菲 秦修功 杜永杰 田云龙 《计算机应用》 北大核心 2025年第3期815-822,共8页
针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先... 针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。 展开更多
关键词 少量语料 说话人-情感语音转换 大语言模型 预训练情感语音合成模型 微调
在线阅读 下载PDF
基于多粒度时空注意力机制的说话人识别模型
4
作者 朱文博 吴靖 +2 位作者 金浩 叶维彰 朱珍 《声学技术》 北大核心 2025年第1期93-101,共9页
深度学习已广泛应用在说话人识别领域,但当前模型存在识别率低和模型参数复杂度高的问题,难以进行轻量化语音识别。针对此问题,文章提出一种基于多粒度时空注意力机制的说话人识别模型,该模型由多粒度混合模块、时空注意力机制模块、通... 深度学习已广泛应用在说话人识别领域,但当前模型存在识别率低和模型参数复杂度高的问题,难以进行轻量化语音识别。针对此问题,文章提出一种基于多粒度时空注意力机制的说话人识别模型,该模型由多粒度混合模块、时空注意力机制模块、通道压缩模块组成。其中多粒度混合模块和时空注意力机制模块以多尺度建模角度来捕捉局部时序上下文特征和空间关联特征信息,并通过多粒度方式耦合不同时空信息的关联特征以提高全局时空建模能力。同时,通道压缩模块通过聚合不同说话人信道以及上下文语境依赖表征以减少整体模型参数数量。在多组公开数据集上进行五重交叉验证实验,结果表明:对比主流模型,所提方法能够有效地提高说话人识别准确率、降低参数量,并达到最优的表现,在轻量化说话人识别模型方面具有重要的应用价值。 展开更多
关键词 深度学习 卷积神经网络 说话人识别 注意力机制 轻量化模型
在线阅读 下载PDF
基于数字声音重建的静电MEMS扬声器设计 被引量:2
5
作者 季旭 许高斌 +2 位作者 尹盛华 王峰 孙百川 《真空科学与技术学报》 CAS CSCD 北大核心 2024年第11期941-949,共9页
针对目前基于数字声音重建技术的扬声器再现声音动态范围窄、失真严重的问题,设计了一种响应速度快、声学输出可线性相加的静电MEMS扬声器。该扬声器采用了包括双背板、悬臂梁和缓冲锥的复合式振膜结构,显著降低了扬声器的振膜刚度和提... 针对目前基于数字声音重建技术的扬声器再现声音动态范围窄、失真严重的问题,设计了一种响应速度快、声学输出可线性相加的静电MEMS扬声器。该扬声器采用了包括双背板、悬臂梁和缓冲锥的复合式振膜结构,显著降低了扬声器的振膜刚度和提高了振动自由度,从而优化了扬声器的工作效率并减少了响应时间。利用Comsol Multiphysics软件对扬声器进行几何结构参数优化和性能仿真,确定当扬声器的振膜厚度为1μm,振膜半径为110μm,电极/振膜比为40%,空腔高度为6μm时综合性能最优,结果证明该扬声器的声学响应时间低于23μs且声学输出满足线性相加,这表明该扬声器具有良好的声学响应,为实现数字声音重建提供良好技术支持。最后,基于MEMS加工工艺设计了静电MEMS扬声器的工艺流程。 展开更多
关键词 静电驱动 微机电系统 数字扬声器 数字声音重建 有限元建模
在线阅读 下载PDF
基于方差归一化失真测度的改进的LBG算法 被引量:4
6
作者 方绍武 戴蓓倩 陆伟 《计算机工程与应用》 CSCD 北大核心 2000年第2期27-29,39,共4页
矢量量化(VQ)技术在话者识别系统中得到了广泛的应用。 VQ码本的产生通常采用 LBG算法,失真测度则为对矢量的各分量等权重的欧氏距离。在话者识别系统中特征矢量的各个分量的分布是有差别的,且对于不同的话者,这种差别的程... 矢量量化(VQ)技术在话者识别系统中得到了广泛的应用。 VQ码本的产生通常采用 LBG算法,失真测度则为对矢量的各分量等权重的欧氏距离。在话者识别系统中特征矢量的各个分量的分布是有差别的,且对于不同的话者,这种差别的程度又是不一样的。由于不同分布的各维参数对话者识别的有效性各不相同,因此,文章提出了一种能反映这种有效性差别的失真测度,即:方差归一化失真测度。以该失真测度为基础,并结合时序相关的初始码本设计方法及有效的零胞腔处理技术,文章提出了改进的LBG算法,同时利用该算法训练出改进的VQ话者模型,并进行了话者识别实验。 展开更多
关键词 LBG算法 方差归一化 话者识别 矢量量化
在线阅读 下载PDF
在线无监督说话人检索中稳健的模型自举算法 被引量:3
7
作者 付中华 张艳宁 《软件学报》 EI CSCD 北大核心 2007年第3期608-616,共9页
基于回归树模型的多特征空间建模方法在回归类内部进行特征音分析,较好地解决了训练数据不足时说话人模型的训练问题,而短语音段聚类策略又进一步避免了过短的语音片断对自举训练的影响.验证实验采用了实际录制的近8小时的不同谈话数据... 基于回归树模型的多特征空间建模方法在回归类内部进行特征音分析,较好地解决了训练数据不足时说话人模型的训练问题,而短语音段聚类策略又进一步避免了过短的语音片断对自举训练的影响.验证实验采用了实际录制的近8小时的不同谈话数据.结果显示,即使平均自举片断长度小于5秒,新方法依然非常稳健,不仅提高了说话人改变检测的效果,而且优于通常的自举方法. 展开更多
关键词 说话人检索 说话人模型 回归类 特征音
在线阅读 下载PDF
基于自适应直方图均衡化的鲁棒性说话人辨认研究 被引量:5
8
作者 徐利敏 唐振民 +1 位作者 何可可 钱博 《自动化学报》 EI CSCD 北大核心 2008年第7期752-759,共8页
在噪声环境下,为提高说话人识别系统的鲁棒性,需要对系统进行各种抗噪声处理.本文基于说话人特征的统计特性和直方图均衡化在说话人识别中的应用特点,提出了直方图均衡化的自适应方法.实验结果表明,与普通直方图均衡化变换方法相比,自... 在噪声环境下,为提高说话人识别系统的鲁棒性,需要对系统进行各种抗噪声处理.本文基于说话人特征的统计特性和直方图均衡化在说话人识别中的应用特点,提出了直方图均衡化的自适应方法.实验结果表明,与普通直方图均衡化变换方法相比,自适应直方图均衡化能进一步提高辨认系统的辨认率;并且无论在平稳噪声还是非平稳噪声环境下,该算法都能取得较好辨认率,进一步增强系统的鲁棒性. 展开更多
关键词 说话人识别 直方图均衡化 高斯混合模型 鲁棒性说话人辨认
在线阅读 下载PDF
基于维纳滤波和混合模型的说话人识别 被引量:5
9
作者 邱政权 范小春 王俊年 《仪器仪表学报》 EI CAS CSCD 北大核心 2009年第7期1436-1440,共5页
在说话人识别系统中,训练和测试环境的不匹配会造成识别性能的显著下降。把小波变换和维纳滤波结合起来对语音进行去噪。对于说话人识别,设计了一个由传统方法(如GMM、MLP和DTW)作为前识别器和通过小波分析(加权求和法)检测到的基音作... 在说话人识别系统中,训练和测试环境的不匹配会造成识别性能的显著下降。把小波变换和维纳滤波结合起来对语音进行去噪。对于说话人识别,设计了一个由传统方法(如GMM、MLP和DTW)作为前识别器和通过小波分析(加权求和法)检测到的基音作为后识别器所组成的混合识别器。传统方法分别由三类特征矢量(LSF、倒谱和滤波器组)组成。通过小波分析获得的基音携带了关于说话人身份的信息。这个系统能在不同噪声环境下分析基音周期。试验结果显示,所提出的系统的鲁棒性和辨识率都有所提高。 展开更多
关键词 维纳滤波 加权求和 混合模型 说话人识别
在线阅读 下载PDF
说话人身份识别深度网络中的聚合模型研究 被引量:7
10
作者 邓飞 邓力洪 +2 位作者 胡文艺 张葛祥 杨强 《计算机应用研究》 CSCD 北大核心 2022年第3期721-725,共5页
说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能。其中聚合模型聚合的话语级特征是影响说话人识别... 说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能。其中聚合模型聚合的话语级特征是影响说话人识别系统准确率的关键因素之一。目前大多数的方法是使用self-attention pooling(SAP)聚合模型。然而SAP聚合模型经常会无法准确地进行帧选择,聚合出的话语级特征不准确、鲁棒性弱。在SAP聚合模型的聚合方式上进行了改进,通过引入平均向量方法,构建了一种改进的聚合模型mSAP。它以一种更细粒化和更稳定的工作方式,将变长的输入序列聚合为话语级特征,可以更有效地捕捉输入序列的长期变化。实验表明,mSAP模型的等错误率(EER)相较于TAP、SAP、NetVLAD聚合模型分别有7.4、1.75和0.24的下降,而DCF值相较于这三种聚合模型分别有0.018、0.137和0.242的下降。改进的mSAP聚合模型能够聚合出鲁棒性更强、更准确的话语级特征,有效地提高了端到端说话人识别模型的性能。 展开更多
关键词 说话人识别 聚合模型 注意力机制
在线阅读 下载PDF
基于SVM-HMM混合模型的说话人确认 被引量:19
11
作者 忻栋 杨莹春 吴朝晖 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2002年第11期1080-1082,共3页
提出一个文本无关的说话人确认的算法 .该算法将支持向量机 (SVM)的输出通过 Sigm oid函数和高斯模型转化为概率 ,并作为隐式马尔可夫模型 (HMM)中各个隐状态的输出概率 .由于 HMM适于处理连续信号 ,SVM适于处理分类问题 ;同时 ,HMM更... 提出一个文本无关的说话人确认的算法 .该算法将支持向量机 (SVM)的输出通过 Sigm oid函数和高斯模型转化为概率 ,并作为隐式马尔可夫模型 (HMM)中各个隐状态的输出概率 .由于 HMM适于处理连续信号 ,SVM适于处理分类问题 ;同时 ,HMM更多地表达了类别内部的相似性 ,而 SVM则很大程度上反映了类别间的差异 ,因而根据两者不同的侧重点 ,使其组合获得了很好的效果 . 展开更多
关键词 SVM-HMM混合模型 说话人确认 支持向量机 隐式马尔可夫模型 语音信号处理 模式识别
在线阅读 下载PDF
基于支撑向量机的文本无关的说话人识别系统 被引量:8
12
作者 何昕 刘重庆 李介谷 《计算机工程》 EI CAS CSCD 北大核心 2000年第6期61-63,共3页
支撑向量机(SVM)是一种新的统计学习方法。提出一种基于支撑向量机的文本无关的说话人辨认系统,在作者的实验中得到了98%的平均识别率,同时实验表明同基于向量量化(VQ)和高斯混合模型(GMM)的经典方法相比,基于SVM的方法具有... 支撑向量机(SVM)是一种新的统计学习方法。提出一种基于支撑向量机的文本无关的说话人辨认系统,在作者的实验中得到了98%的平均识别率,同时实验表明同基于向量量化(VQ)和高斯混合模型(GMM)的经典方法相比,基于SVM的方法具有更好的性能。 展开更多
关键词 支撑向量机 说话人识别系统 语音识别 模式识别
在线阅读 下载PDF
基于修正MFCC参数汉语耳语音的话者识别 被引量:24
13
作者 林玮 杨莉莉 徐柏龄 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第1期54-62,共9页
耳语音的话者识别是一个较新的研究课题,许多参数模型与正常音存在差异.例如话者识别中常见的M el倒谱系数(MFCC)应用于耳语音中就存在共振峰和听觉敏感区域定位的偏差.基于对耳语音共振峰位置、能量以及人耳对耳语音听觉模型的研究提... 耳语音的话者识别是一个较新的研究课题,许多参数模型与正常音存在差异.例如话者识别中常见的M el倒谱系数(MFCC)应用于耳语音中就存在共振峰和听觉敏感区域定位的偏差.基于对耳语音共振峰位置、能量以及人耳对耳语音听觉模型的研究提出了修正MFCC参数MFCCM和MFCCExp-Log,并结合两种参数的特点,改进了传统隐马尔可夫模型,建立了适用于耳语音的汉语话者识别系统.通过1 600个音的话者识别实验得出采用MFCCM的正确率为88.88%;MFCCExp-Log参数为91.38%;如果采用改进隐马尔可夫模型正确率可以提高到92.31%,均高于传统参数模型.实验表明,修正MFCC参数可以作为表征耳语音特点的参数,它提高了耳语音话者识别系统的识别率. 展开更多
关键词 耳语音 话者识别 MFCC参数 隐马尔可夫模型
在线阅读 下载PDF
基于NFxPEM算法的调制气流声源的非线性补偿 被引量:1
14
作者 周泽民 曾新吾 +2 位作者 龚昌超 田章福 孙海洋 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第6期126-131,共6页
针对调制气流声源存在较强的谐波畸变,将声源系统等效为Hammerstein非线性模型,利用该模型下的预失真技术对声源进行非线性补偿研究。根据辨识的Hammerstein模型中静态非线性部分带有直流分量的特点,给出了考虑直流分量补偿的预失真算法... 针对调制气流声源存在较强的谐波畸变,将声源系统等效为Hammerstein非线性模型,利用该模型下的预失真技术对声源进行非线性补偿研究。根据辨识的Hammerstein模型中静态非线性部分带有直流分量的特点,给出了考虑直流分量补偿的预失真算法,并用数值仿真验证了算法的准确性和直流分量补偿的必要性。在非线性补偿实验中,根据单频信号辨识得到Hammerstein模型参数,采用NFxPEM算法求得对应的预失真Wiener模型参数和预失真波形。实验结果表明,与直接发射相比,补偿发射后声波的功率谱中谐波能量有所下降,而基频能量有小幅度的上升,说明了研究思路的正确性。 展开更多
关键词 调制气流声源 HAMMERSTEIN模型 NFxPEM算法 非线性补偿
在线阅读 下载PDF
VQ话者模型中失真测度的鲁棒性研究 被引量:1
15
作者 方绍武 戴蓓倩 《数据采集与处理》 CSCD 2000年第2期157-161,共5页
文中研究表明 ,反映说话人特征信息的特征参数矢量的各个分量通常具有不同的分布 ,对正确识别说话人身份的有效性是有差别的。文中将这种有效性差别作为权重矢量反映到失真测度计算公式中 ,提出了一种新的失真测度 ,即方差归一化失真测... 文中研究表明 ,反映说话人特征信息的特征参数矢量的各个分量通常具有不同的分布 ,对正确识别说话人身份的有效性是有差别的。文中将这种有效性差别作为权重矢量反映到失真测度计算公式中 ,提出了一种新的失真测度 ,即方差归一化失真测度。该失真测度可有效提高话者识别系统的识别性能。进一步的实验还表明 ,该失真测度能提高话者识别系统的时间鲁棒性。文中同时还给出了适合于话者识别的参数归正方法 :帧内幅度归正。 展开更多
关键词 失真测度 鲁棒性 VQ话者模型 话者识别
在线阅读 下载PDF
基于GMM的普通话和四川方言独立文本的说话人确认 被引量:2
16
作者 赵靖 龚卫国 杨利平 《计算机应用》 CSCD 北大核心 2008年第3期792-794,共3页
针对训练和测试阶段中的语音数据类型(普通话和四川方言)的不匹配导致说话人确认系统性能下降很大的问题,提出了一种新的建立高斯混合模型(GMM)方法——普通话和四川方言按比例混合建立普通话和四川方言联合GMM的方法,并发现使系统针对... 针对训练和测试阶段中的语音数据类型(普通话和四川方言)的不匹配导致说话人确认系统性能下降很大的问题,提出了一种新的建立高斯混合模型(GMM)方法——普通话和四川方言按比例混合建立普通话和四川方言联合GMM的方法,并发现使系统针对普通话和四川方言不匹配导致的性能下降率至很低(2.79%)的比例。实验结果表明,该方法可以有效地加强测试阶段针对语种变化的鲁棒性,可以有效的减少普通话和四川方言在训练和测试阶段的不匹配造成的性能下降率。 展开更多
关键词 说话人确认 高斯混合模型 独立文本 双语种说话人确认
在线阅读 下载PDF
基于量子模距离的说话人识别方法 被引量:2
17
作者 罗辉 潘平 王洋 《计算机工程与科学》 CSCD 北大核心 2014年第1期39-43,共5页
概率测度和距离测度是模式识别最基本的两种测度,矢量量化算法是典型的基于距离测度的模式识别算法。根据量子模距离测度理论,在矢量量化算法的基础上,探索一种基于量子模距离的说话人识别方法。该方法针对说话人语音的时变性、随机性... 概率测度和距离测度是模式识别最基本的两种测度,矢量量化算法是典型的基于距离测度的模式识别算法。根据量子模距离测度理论,在矢量量化算法的基础上,探索一种基于量子模距离的说话人识别方法。该方法针对说话人语音的时变性、随机性、特征维数较高等特点,将一帧语音信号视为一个量子态,并根据量子测量理论,对量子态之间进行模距离测量,从而对量子态进行有效的分类和聚类。研究表明该方法能有效地降低语音信号处理的复杂度。在经典计算机上的仿真表明,该方法在运行时间上略优于矢量量化算法,在识别率上明显优于矢量量化算法,为说话人识别的理论研究提供了新的途径。 展开更多
关键词 量子 模距离 说话人 识别
在线阅读 下载PDF
采用主成分分析的特征映射 被引量:8
18
作者 郭武 戴礼荣 王仁华 《自动化学报》 EI CSCD 北大核心 2008年第8期876-879,共4页
在与文本无关的说话人识别研究中,特征映射的方法可以有效减少信道的影响.本文首先通过主成分分析的方法在模型域中估计出信道因子所在的空间,然后通过映射的方法在特征参数域中减去信道因子的影响.采用这种方法需要有信道信息标记的数... 在与文本无关的说话人识别研究中,特征映射的方法可以有效减少信道的影响.本文首先通过主成分分析的方法在模型域中估计出信道因子所在的空间,然后通过映射的方法在特征参数域中减去信道因子的影响.采用这种方法需要有信道信息标记的数据,但是在特征映射时不需要对信道进行判决.在NIST 2006年SRE lconv4w-lconv4w数据库上,采用本文推荐方法的系统相对基线系统在等错误率上降低了19%. 展开更多
关键词 说话人确认 混合高斯模型 超矢量 梅尔刻度式倒谱参数
在线阅读 下载PDF
汉语大词汇量连续语音识别系统研究进展 被引量:51
19
作者 刘加 《电子学报》 EI CAS CSCD 北大核心 2000年第1期85-91,共7页
本文综述了近年来大词汇量连续语音识别技术进步和发展,描述了大词汇量连续汉语语音识别系统的设计方法.对语音识别系统中的一些关键技术和原理进行了详细地分析和讨论,并对语音识别技术进一步发展中存在的问题和近年语音识别研究发... 本文综述了近年来大词汇量连续语音识别技术进步和发展,描述了大词汇量连续汉语语音识别系统的设计方法.对语音识别系统中的一些关键技术和原理进行了详细地分析和讨论,并对语音识别技术进一步发展中存在的问题和近年语音识别研究发展动向进行了讨论. 展开更多
关键词 语音识别 汉语 大词汇量
在线阅读 下载PDF
基于粒子滤波的交互式多模型说话人跟踪方法 被引量:13
20
作者 侯代文 殷福亮 《电子学报》 EI CAS CSCD 北大核心 2010年第4期835-841,共7页
本文提出一种基于采样交互的多模型粒子滤波方法,实现了对随意运动说话人的有效跟踪.该方法根据说话人跟踪问题的特点,用马尔可夫跳变系统描述说话人的动态特性,用粒子滤波方法估计说话人的位置.在说话人跟踪过程中,通过调整滤波粒子的... 本文提出一种基于采样交互的多模型粒子滤波方法,实现了对随意运动说话人的有效跟踪.该方法根据说话人跟踪问题的特点,用马尔可夫跳变系统描述说话人的动态特性,用粒子滤波方法估计说话人的位置.在说话人跟踪过程中,通过调整滤波粒子的采样区域,完成交互式多模型方法中系统状态的交互过程,这不仅实现了各子滤波器中粒子数目的任意设定,避免了模型转换过程中的性能退化现象,而且取消了对模型后验概率密度函数的高斯分布假定,增强了说话人跟踪系统的鲁棒性.计算机仿真实验结果验证了本文方法的有效性. 展开更多
关键词 说话人跟踪 交互式多模型方法 马尔可夫跳变系统 粒子滤波 状态估计
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部