期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于Gamma语音模型的语音增强算法 被引量:11
1
作者 邹霞 陈亮 张雄伟 《通信学报》 EI CSCD 北大核心 2006年第10期118-123,共6页
提出了一种新的基于Gamma语音模型的语音增强算法。首先,在假定语音和噪声的短时DCT系数分别服从Gamma和Gaussian分布的基础上,推导了最小均方误差意义下的语音信号短时DCT系数估计;然后,根据语音存在概率估计,提出了语音信号短时DCT系... 提出了一种新的基于Gamma语音模型的语音增强算法。首先,在假定语音和噪声的短时DCT系数分别服从Gamma和Gaussian分布的基础上,推导了最小均方误差意义下的语音信号短时DCT系数估计;然后,根据语音存在概率估计,提出了语音信号短时DCT系数估计的修正因子。在增强算法中,提出了基于Gamma语音模型的改进最小统计量控制递归平均(IMCRA)噪声估计算法。仿真结果表明,该算法不仅在噪声抑制性能方面优于近两年国际上提出的几种基于Gaussian语音模型的语音增强算法,而且在增强语音质量方面也具有更好的性能。 展开更多
关键词 语音增强 语音模型 最小均方误差 噪声估计
在线阅读 下载PDF
一种谐波正弦语音模型的最佳相位估计算法 被引量:6
2
作者 应娜 赵晓晖 +1 位作者 董婧 方昕 《电子学报》 EI CAS CSCD 北大核心 2009年第4期860-863,共4页
基于谐波正弦语音模型(HSSM),利用最小二乘方法估计语音模型的最佳相位参数,给出了一种估计相位的批处理方法和迭代算法.把利用该算法得到的相位参数用于宽带语音编解码算法进行仿真,其结果与G.722.2标准宽带编码算法中的两种编码速率8.... 基于谐波正弦语音模型(HSSM),利用最小二乘方法估计语音模型的最佳相位参数,给出了一种估计相位的批处理方法和迭代算法.把利用该算法得到的相位参数用于宽带语音编解码算法进行仿真,其结果与G.722.2标准宽带编码算法中的两种编码速率8.85kbit/s及6.60kbit/s的语音进行了比较,语音波形的比较和主客观测试结果表明该最佳相位估计算法相位参数估计准确有效,可由此建立的语音模型获得较高质量的合成语音. 展开更多
关键词 谐波正弦语音模型 相位估计 最小二乘 迭代算法
在线阅读 下载PDF
语音清浊音分类及浊音谐波提取算法——三阶累积量基于正弦语音模型的应用 被引量:4
3
作者 应娜 赵晓晖 《计算机工程与应用》 CSCD 北大核心 2006年第1期64-67,76,共5页
在低信噪比和非平稳噪声干扰下,语音信号的清浊音检测是语音信号处理中的一个重要研究问题。论文基于语音正弦模型,提出了一种清浊音分类和浊音谐波提取算法。该方法在分析了语音的三阶累积量谱后,用子谐波-谐波方法取得基音,并计算出... 在低信噪比和非平稳噪声干扰下,语音信号的清浊音检测是语音信号处理中的一个重要研究问题。论文基于语音正弦模型,提出了一种清浊音分类和浊音谐波提取算法。该方法在分析了语音的三阶累积量谱后,用子谐波-谐波方法取得基音,并计算出谐波参数和高低频能量比值。它利用谱包络估计器得到谱包络及尖峰信号,结合最小均方估计准则下的迭代算法计算语音谐波的信噪比;通过对上面各计算结果的综合评价得出语音帧的浊音度,从而得到语音清浊音的分类和浊音谐波数。仿真结果表明,该算法在复杂噪声背景下,能有效进行语音分类,准确得到浊音度。同时该算法还具有实时性好、语音参数分析精度高的特点。 展开更多
关键词 正弦语音模型 三阶累积量 清浊音分离 谐波提取
在线阅读 下载PDF
一种基于Laplacian语音模型的语音增强算法 被引量:2
4
作者 邹霞 吴其前 张雄伟 《信号处理》 CSCD 北大核心 2007年第2期195-199,共5页
本文提出了一种新的基于Laplacian语音模型的语音增强算法。首先,在假定语音和噪声的短时DCT系数分别服从Laplacian和Gaussian分布的基础上,推导了最小均方误差意义下的语音信号短时DCT系数估计;然后,根据语音存在概率估计,提出了语音... 本文提出了一种新的基于Laplacian语音模型的语音增强算法。首先,在假定语音和噪声的短时DCT系数分别服从Laplacian和Gaussian分布的基础上,推导了最小均方误差意义下的语音信号短时DCT系数估计;然后,根据语音存在概率估计,提出了语音信号短时DCT系数估计的修正因子。在增强算法中,提出了面向判决的Laplacian语音模型参数估计和基于Laplacian语音模型的改进最小量控制递归平均(IMCRA)噪声估计算法。仿真结果表明,本文算法不仅在噪声抑制性能方面优于近两年国际上提出的几种基于Gaussian语音模型的语音增强算法,而且在增强语音质量方面也具有更好的性能。 展开更多
关键词 语音增强 语音模型 最小均方误差 噪声估计
在线阅读 下载PDF
融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法 被引量:1
5
作者 鲁超峰 陶冶 +4 位作者 文连庆 孟菲 秦修功 杜永杰 田云龙 《计算机应用》 北大核心 2025年第3期815-822,共8页
针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先... 针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。 展开更多
关键词 少量语料 说话人-情感语音转换 大语言模型 预训练情感语音合成模型 微调
在线阅读 下载PDF
基于离散化自监督表征增强的老挝语非自回归语音合成方法
6
作者 冯子健 王琳钦 +2 位作者 高盛祥 余正涛 董凌 《中文信息学报》 北大核心 2025年第7期54-61,共8页
老挝语的语音合成对中老两国合作与交流意义重大,但老挝语语音发音复杂,存在声调、音节及音素等发音特性,现有语音合成方法在老挝语上效果不尽人意。基于注意力机制建模的自回归模型难以拟合复杂的老挝语语音,模型泛化能力差,容易出现... 老挝语的语音合成对中老两国合作与交流意义重大,但老挝语语音发音复杂,存在声调、音节及音素等发音特性,现有语音合成方法在老挝语上效果不尽人意。基于注意力机制建模的自回归模型难以拟合复杂的老挝语语音,模型泛化能力差,容易出现漏字、跳字等灾难性错误,合成音频缺乏自然性和流畅性。该文提出基于离散化自监督表征增强的老挝语非自回归语音合成方法,结合老挝语的语音特点,使用老挝语音素粒度的标注时长信息构建非自回归架构声学模型,通过自监督学习的预训练语音模型来提取语音内容和声调信息的离散化表征,融入到声学模型中增强模型的语音生成能力,增强合成音频的流畅性和自然性。实验证明,本文合成音频达到了4.03的MOS评分,基于离散化自监督表征增强的非自回归建模方法,能更好地在声调、音素时长、音高等细粒度层面刻画老挝语的语音特性。 展开更多
关键词 语音合成 老挝语 非自回归 预训练语音模型
在线阅读 下载PDF
端到端语音到语音翻译的优化方法综述
7
作者 宗伟 赵悦 +1 位作者 李尹 徐晓娜 《计算机应用》 北大核心 2025年第5期1363-1371,共9页
语音到语音翻译(S2ST)是智能语音领域中新兴的研究方向,旨在将一种语言的语音准确翻译成另一种语言的语音。随着人们对跨语言交流需求的增加,S2ST受到广泛的关注,相关研究也不断涌现。传统的级联模型在S2ST过程中存在诸多问题,如错误传... 语音到语音翻译(S2ST)是智能语音领域中新兴的研究方向,旨在将一种语言的语音准确翻译成另一种语言的语音。随着人们对跨语言交流需求的增加,S2ST受到广泛的关注,相关研究也不断涌现。传统的级联模型在S2ST过程中存在诸多问题,如错误传播、推理延迟和无法翻译无文字系统的语言等,因此如何通过端到端模型实现直接S2ST成为当前研究的重点。在全面调查端到端S2ST的基础上,详细分析和归纳了端到端S2ST的各种模型,综述了已有的相关技术,将端到端S2ST面临的挑战总结为建模负担、数据稀缺和现实应用三类问题,并重点探讨了现有工作是如何解决这三类问题的。大语言模型(LLM)强大的理解和生成能力为S2ST提供了新的可能性,同时也带来了更多的挑战。因此,讨论了LLM在S2ST中的应用,并设想了未来可能的发展方向。 展开更多
关键词 端到端语音语音翻译 建模负担 数据稀缺 现实应用 语音基石模型
在线阅读 下载PDF
基于语音参数模型的语音隐藏算法 被引量:14
8
作者 陈亮 张雄伟 《计算机学报》 EI CSCD 北大核心 2003年第8期974-981,共8页
基于语音参数模型 ,该文提出一种将保密语音隐藏在公开语音中的信息隐藏算法 .首先将保密语音经混合激励线性预测 (MELP)编码和纠错编码形成隐藏信息 .然后根据瞬态互相关基音周期检测算法确定频域嵌入点 ,并通过修改对应的DFT系数来隐... 基于语音参数模型 ,该文提出一种将保密语音隐藏在公开语音中的信息隐藏算法 .首先将保密语音经混合激励线性预测 (MELP)编码和纠错编码形成隐藏信息 .然后根据瞬态互相关基音周期检测算法确定频域嵌入点 ,并通过修改对应的DFT系数来隐藏信息 .提取时按同样方法确定嵌入点恢复隐藏信息 ,并经MELP解码还原保密语音 .实验结果表明嵌入信息后 ,中间语音的分段平均信噪比接近 6 0dB ,并且在受到压缩、滤波等攻击时具有较强的鲁棒性 . 展开更多
关键词 语音隐藏算法 语音参数模型 语音编码 信息隐藏 信息安全 语音信号处理
在线阅读 下载PDF
一种基于联合源-滤波器模型优化的语音声门源模型估计方法 被引量:3
9
作者 付强 Peter Murphy 颜永红 《电子学报》 EI CAS CSCD 北大核心 2007年第5期982-986,共5页
本文论述了一种基于联合源-滤波器分离的稳健声门源模型估计方法.此方法利用LF(Liljencrants-Fant)模型对声门波导数(glottal flow derivative)进行建模,而声道被描述为一个时变的ARX模型.由于联合估计问题是一个多变量非线性优化过程,... 本文论述了一种基于联合源-滤波器分离的稳健声门源模型估计方法.此方法利用LF(Liljencrants-Fant)模型对声门波导数(glottal flow derivative)进行建模,而声道被描述为一个时变的ARX模型.由于联合估计问题是一个多变量非线性优化过程,本文采用了一个两阶段(two-pass)的实现策略来解决这一问题.第一阶段初始化声门源和声道模型,并为其后的联合优化过程提供稳健的初始参数.第二阶段的联合估计则最终决定模型估计的精度,由信任域下降优化算法实现.通过分别对合成和真实语音的实验,表明该方法是一种具有一定精度和较好的稳健性的声门源模型估计算法. 展开更多
关键词 语音产生模型 源-滤波器 声门波导数 ARX 声门波估计 联合优化
在线阅读 下载PDF
双模型语音识别中的听视觉合成和模型同步异步性实验研究 被引量:3
10
作者 谢磊 蒋冬梅 +4 位作者 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第2期171-175,共5页
研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步... 研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。 展开更多
关键词 语音识别 模型语音识别 听觉视觉合成 模型同步异步性
在线阅读 下载PDF
开放的语音通信模型研究及实现 被引量:2
11
作者 程华 宋国新 《计算机工程》 CAS CSCD 北大核心 2001年第6期143-145,共3页
对于开放式的语音通信模型,H.323和SIP都是基于IP的语音通信的体系结构的标准。通过对SIP协议的相关技术的研究,提出在Web的客户端浏览器上用Java来实现SIP协议的客户端用户代理部分。
关键词 用户代理 语音通信模型 计算机网络 SIP协议 WEB
在线阅读 下载PDF
语音相位听觉特性在正弦模型语音编码中的运用 被引量:1
12
作者 曹燕 张军 +1 位作者 宁更新 韦岗 《科学技术与工程》 2008年第23期6218-6223,共6页
通过分析语音相位的听觉特性,把这种听觉特性运用到基于正弦模型语音编码合成元音的相位处理中,只通过幅频信息和少量的原始相位信息来合成重建语音信号,仿真实验结果表明这种方法能改善合成信号中帧与帧之间的不连续性,使帧与帧之间能... 通过分析语音相位的听觉特性,把这种听觉特性运用到基于正弦模型语音编码合成元音的相位处理中,只通过幅频信息和少量的原始相位信息来合成重建语音信号,仿真实验结果表明这种方法能改善合成信号中帧与帧之间的不连续性,使帧与帧之间能平滑过渡,能增加语音自然度,提高语音的合成质量。 展开更多
关键词 语音相位 听觉特性 临界相位频率 语音正弦模型编码
在线阅读 下载PDF
基于语音结构化模型的数字语音识别 被引量:3
13
作者 姜莹 俞一彪 《计算机工程与设计》 CSCD 北大核心 2012年第4期1482-1485,1490,共5页
提出一种新的基于语音结构化模型的语音识别方法,并应用于非特定人数字语音识别。每一个数字语音计算倒谱特征之后提取语音中存在的对说话人差异具有不变性的结构化特征——全局声学结构(acoustical universal structure,AUS),并建立结... 提出一种新的基于语音结构化模型的语音识别方法,并应用于非特定人数字语音识别。每一个数字语音计算倒谱特征之后提取语音中存在的对说话人差异具有不变性的结构化特征——全局声学结构(acoustical universal structure,AUS),并建立结构化模型,识别时提取测试语音的全局声学结构,然后与各数字语音的结构化模型进行匹配。测试了少量语料训练下的识别性能并与传统HMM(hidden Markov model)方法进行比较,结果表明该方法可以取得优于HMM的性能,语音结构化模型可以有效消除说话人之间的差异。 展开更多
关键词 语音结构化模型 数字识别 隐马尔可夫模型 说话人差异 巴氏距离
在线阅读 下载PDF
双源谐波模型的语音清浊分量分解方法
14
作者 梁满贵 简锐锋 +2 位作者 何二宝 李俊杰 陈亮 《信号处理》 CSCD 北大核心 2005年第z1期227-230,共4页
本文结合双源激励模型和AM-FM语音表示模型,提出双源谐波模型,给出一套精确分离清音和浊音分量方法,即时域谐波逼近法,为分别提取清音与浊音特征,对清音和浊音以不同的时频分辨率进行分析提供技术条件,而且可以提高系统整体计算效率.新... 本文结合双源激励模型和AM-FM语音表示模型,提出双源谐波模型,给出一套精确分离清音和浊音分量方法,即时域谐波逼近法,为分别提取清音与浊音特征,对清音和浊音以不同的时频分辨率进行分析提供技术条件,而且可以提高系统整体计算效率.新方法特别适合声学和语言学模块的Top-Down和Bottom-Up并行迭代计算的特点. 展开更多
关键词 语音产生模型 信号分解 激励
在线阅读 下载PDF
基于多时间尺度特征的语音识别模型
15
作者 韩疆 尹宝林 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2000年第2期201-205,共5页
提出了基于多时间尺度特征的语音识别模型 .该模型采用描述谱参数轨迹的段特征 ,在段尺度上实现了对语音信号帧间相关性的显式建模 ;采用段特征依赖的非平稳时间序列产生模型 ,实现了不同尺度特征间的相关性建模 ,并在帧尺度上通过参数... 提出了基于多时间尺度特征的语音识别模型 .该模型采用描述谱参数轨迹的段特征 ,在段尺度上实现了对语音信号帧间相关性的显式建模 ;采用段特征依赖的非平稳时间序列产生模型 ,实现了不同尺度特征间的相关性建模 ,并在帧尺度上通过参数化的均值轨迹函数 ,实现了对语音信号帧间相关性的隐式建模 .给出了基于多时间尺度特征联合统计距离优化的分段算法及基于最大似然准则的模型参数估计算法 .识别实验表明 ,该模型的识别性能优于标准HMM及趋势HMM . 展开更多
关键词 语音识别模型 帧间相关笥 多时间尺度 段特征
在线阅读 下载PDF
基于Deep Speech与多层LSTM的儿童朗读语音评价模型 被引量:2
16
作者 郑纯军 贾宁 《计算机科学》 CSCD 北大核心 2019年第S11期108-111,148,共5页
现代人大多忽略了朗读的重要性,然而对于5~12岁的儿童,朗读不仅是学习过程中必备的技能,还是陶冶情操的有效手段。由于朗读语音信号的特征与评价标准之间存在着非线性关系,递归神经网络虽然适用于时间序列的预测,但是对长时间跨度的预... 现代人大多忽略了朗读的重要性,然而对于5~12岁的儿童,朗读不仅是学习过程中必备的技能,还是陶冶情操的有效手段。由于朗读语音信号的特征与评价标准之间存在着非线性关系,递归神经网络虽然适用于时间序列的预测,但是对长时间跨度的预测效果有限。基于此,根据儿童朗读语音特点及其评价体系,设计了一种基于DeepSpeech与三层长短期记忆(Long Short-Term Memory,LSTM)神经网络相结合的模型。首先,在添加注意力机制的基础上,提出朗读语音评价的准确性和流利性度量,以频谱图作为特征提取的输入,其中,朗读评价的准确性采用改进后的Deep Speech以提高音素识别的准确率,流利性评价将频谱图送至三层LSTM模型中以呈现时间序列的影响;然后,将结果送入注意力机制进行权重调节;最终,将计算的总评价结果用于儿童朗读语音的评分。使用“出口成章”软件提供的儿童朗读语料库和TensorFlow平台进行实验。结果表明,与传统的模型相比,此模型不仅可以精确判断朗读的正确性和朗读的流利性,而且其评价模型获得的评分结果较准确。 展开更多
关键词 频谱图 长短期记忆网络 注意力机制 DeepSpeech 朗读语音评价模型
在线阅读 下载PDF
几种小训练样本集的数字语音识别模型的比较性研究 被引量:1
17
作者 贺苏宁 虞厥邦 《计算机科学》 CSCD 北大核心 2005年第9期170-175,共6页
本文通过对小训练样本集的基于DTW结构的数字语音识别模型的比较性分析,指出其存在的三个一般性问题:(1)DTW逐帧匹配模式割裂了观测向量序列的内在联系;(2)压扩观测向量序列造成局部信息使用的不均匀;(3)计算复杂度高,识别率低。为了解... 本文通过对小训练样本集的基于DTW结构的数字语音识别模型的比较性分析,指出其存在的三个一般性问题:(1)DTW逐帧匹配模式割裂了观测向量序列的内在联系;(2)压扩观测向量序列造成局部信息使用的不均匀;(3)计算复杂度高,识别率低。为了解决这些问题,我们提出了基于数字语音时频信息整体结构的单特征向量识别模型。这种模型完整地利用了观测向量序列的全部信息,结合置信度评估和自适应反馈学习之后可及时地吸收测试向量携带的新的环境特征信息,调整识别模型结构。该模型的错识率较之最好的基于DTW结构的混合城模型的错识率降低50%以上,计算复杂度则是固定帧长模型的 13.12%。 展开更多
关键词 训练样本集 数字语音识别模型 置信度评估 自适应反馈学习 DTW 匹配模式
在线阅读 下载PDF
基于多域融合及神经架构搜索的语音增强方法 被引量:3
18
作者 张睿 张鹏云 孙超利 《通信学报》 EI CSCD 北大核心 2024年第2期225-239,共15页
为进一步提高语音增强模型的自学习及降噪能力,提出基于多域融合及神经架构搜索的语音增强方法。该方法设计了语音信号多空间域映射及融合机制,实现信号实复数关联关系的挖掘;围绕模型卷积池化运算特点,提出了复数神经架构搜索机制,通... 为进一步提高语音增强模型的自学习及降噪能力,提出基于多域融合及神经架构搜索的语音增强方法。该方法设计了语音信号多空间域映射及融合机制,实现信号实复数关联关系的挖掘;围绕模型卷积池化运算特点,提出了复数神经架构搜索机制,通过设计的搜索空间、搜索策略及评估策略,高效自动地构建出语音增强模型。实验搜索到的最优语音增强模型与基线模型的对比泛化实验中,语音质量客观评价(PESQ)、短时客观可懂度(STOI)两大指标较最优基线模型均最大提升5.6%,且模型参数量最低。 展开更多
关键词 语音增强模型 复数空间域映射 多域融合 复数神经架构搜索 低成本评估
在线阅读 下载PDF
鲁棒语音识别技术综述 被引量:4
19
作者 吕钊 吴小培 张超 《安徽大学学报(自然科学版)》 CAS 北大核心 2013年第5期17-24,共8页
鲁棒语音识别是为了解决噪声环境所引起的语音识别系统识别和训练不匹配的情况.依据噪声对语音识别系统的影响,从信号空间、特征空间及模型空间3个层面上分别对语音增强技术、特征增强技术及语音模型补偿、增强技术进行了总结,并分析了... 鲁棒语音识别是为了解决噪声环境所引起的语音识别系统识别和训练不匹配的情况.依据噪声对语音识别系统的影响,从信号空间、特征空间及模型空间3个层面上分别对语音增强技术、特征增强技术及语音模型补偿、增强技术进行了总结,并分析了不同方法的特点、实现及应用. 展开更多
关键词 鲁棒 语音识别 语音增强 特征增强 语音模型补偿 增强
在线阅读 下载PDF
基于前向-后向HMM的连续语音识别系统的研究 被引量:5
20
作者 于晓明 柏松 《计算机工程与设计》 CSCD 北大核心 2009年第18期4339-4341,共3页
在分析语音识别原理的基础上采用TMS320DM642 DPS芯片,利用前向-后向HMM声学模型和Viterbi算法进行模式训练和识别,设计了一种连续的、小词量的语音识别系统。实验结果表明,该语音识别系统具有较高的识别率和一定程度的鲁棒性,实验室识... 在分析语音识别原理的基础上采用TMS320DM642 DPS芯片,利用前向-后向HMM声学模型和Viterbi算法进行模式训练和识别,设计了一种连续的、小词量的语音识别系统。实验结果表明,该语音识别系统具有较高的识别率和一定程度的鲁棒性,实验室识别率和室外识别率分别达到96.8%及91.2%,该语音识别系统具有良好的实用性和可移植性。 展开更多
关键词 隐马尔可夫模型 语音识别 MARKOV链 VITERBI算法 语音模型 模式匹配
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部